当前位置: 首页 > 资讯

研究人员使用大型语言模型来帮助机器人导航

IoT World Today       2024-06-26

假如人们希望自己的家用机器人把一大堆脏衣服搬到楼下,并把它们放进地下室最左边角落的洗衣机。机器人需要将你的指令与它的视觉观察结合起来,以确定完成这项任务应该采取的步骤。

对于人工智能来说,这说起来容易做起来难。目前的方法通常利用多个手工创建的机器学习模型来处理任务的不同部分,这些任务需要大量的人力和专业知识来构建。这些方法使用视觉表示来直接做出导航决策,需要大量的视觉数据来进行训练,而这些数据往往很难获得。

来自麻省理工学院CSAIL、麻省理工学院-IBM沃森人工智能实验室和达特茅斯学院的研究人员开发了一种新的导航方法,将视觉表示转换为语言片段,然后将其输入一个大型语言模型,以实现多步骤导航任务的所有部分。他们的方法不是将机器人周围图像的视觉特征编码为视觉表征,而是创建描述机器人视角的文本标题,这是计算密集型的。一个大型语言模型使用字幕来预测机器人应该采取的行动,以完成用户基于语言的指令。

在最近发表的论文中,研究人员指出,他们基于语言的方法优于传统的基于视觉的导航方法,能够提高任务执行能力。通过纯粹使用语言作为知觉表征,我们的方法更为直接。由于所有输入都可以编码为语言,研究人员可以生成人们可以理解的轨迹。

研究人员没有直接使用原始的视觉观察结果,而是使用现成的计算机视觉模型将视觉输入转换成文本描述,用于图像字幕(BLIP)和物体检测(Deformable DETR)。视觉场景的文本描述被转换成自然语言,并输入到一个预先训练好的大型语言模型中,该模型针对导航任务进行了微调。

由此产生的方法可为机器人生成基于文本的指令,就如何导航特定路径提供详细指导。例如走下楼梯,直接进入客厅,从客厅走到露台,在露台上,停在门口外面

通过语言来表现视觉场景,这种方法能让机器人更好地理解它需要走的路径,从而减少硬件处理的信息量。论文指出,该方法优于传统的仅依靠视觉信息的机器人导航方法。基于语言的方法甚至在少量数据环境下也能很好地工作,因为只有少数专家导航示例可用于训练。

虽然研究人员认为这种方法很有前景,但他们也指出该方法也有一定的局限性。一些视觉信息在转移到语言模型中时可能会丢失,从而影响其理解整个场景的能力。


关键词:视觉数据;语言文本;机器人;导航