新方法使机器人能够绘制场景、识别物体以完成一组任务

2024-10-01 05:46:19

想象一下，必须整理一个凌乱的厨房，从散落着酱料包的柜台开始。如果您的目标是将柜台擦干净，您可以将数据包作为一个整体进行清理。但是，如果您想先挑出芥末包，然后再扔掉其余的，则可以根据酱汁类型进行更有区别的分类。如果在众多芥末中，您对 Grey Poupon 情有独钟，那么找到这个特定品牌就需要更仔细的搜索。

Helping robots zero in on the objects that matter — 麻省理工学院的 Clio 实时运行，绘制机器人周围环境中与任务相关的物体的地图，从而使机器人（波士顿动力公司的四足机器人 Spot，如图）执行自然语言任务（“拿起橙色背包”）。图片来源：麻省理工学院

麻省理工学院的工程师开发了一种方法，使机器人能够做出类似直观的、与任务相关的决策。

该团队的新方法名为 Clio，能够实现机器人识别 a 的各个部分场景考虑到手头的任务，这一点很重要。借助 Clio，机器人可以接收以下描述的任务列表：自然语言然后，根据这些任务，它确定解释周围环境所需的粒度级别，并仅“记住”场景中相关的部分。

在从杂乱的小隔间到麻省理工学院校园内五层楼的真实实验中，团队使用 Clio 根据自然语言提示中指定的一组任务（例如“移动机架”）自动以不同粒度级别分割场景。杂志”和“获取急救箱”。

该团队还运行了 Clio即时的在四足机器人上。当机器人探索办公楼时，Clio 仅识别并绘制场景中与机器人任务相关的部分（例如检索狗玩具，同时忽略成堆的办公用品），从而使机器人能够抓住感兴趣的物体。

Clio 以希腊历史缪斯命名，因为它能够识别和记住对特定任务而言重要的元素。研究人员预计，Clio 将在许多情况和环境中发挥作用，在这些情况和环境中，机器人必须在给定任务的背景下快速调查并理解周围环境。

麻省理工学院航空航天系 (AeroAstro) 副教授、Clio 项目首席研究员 Luca Carlone 表示：“搜索和救援是这项工作的主要应用，但 Clio 还可以为家用机器人和在工厂车间与人类一起工作的机器人提供动力。”信息与决策系统实验室 (LIDS) 和 MIT SPARK 实验室主任。“这实际上是为了帮助机器人了解环境以及它必须记住什么才能执行其任务。”

该团队在一份报告中详细介绍了他们的结果学习今天发表在杂志上IEEE 机器人与自动化快报。Carlone 的合著者包括 SPARK 实验室的成员：Dominic Maggio、Yun Chang、Nathan Hughes 和 Lukas Schmid；麻省理工学院林肯实验室成员：Matthew Trang、Dan Griffith、Carlyn Dougherty 和 Eric Cristofalo。

开放领域

计算机视觉和自然语言处理领域的巨大进步使机器人能够识别周围的物体。但直到最近，机器人只能在“封闭式”场景中做到这一点，在这种场景中，它们被编程为在精心策划和控制的环境中工作，并且机器人经过预先训练以识别有限数量的物体。

近年来，研究人员采取了更加“开放”的方法，使机器人能够在更真实的环境中识别物体。在开放集识别领域，研究人员利用深度学习工具构建神经网络，可以处理来自互联网的数十亿张图像，以及每张图像的相关文本（例如朋友的 Facebook 图片，标题为“认识一只狗”）。我的新小狗！”）。

神经网络从数百万个图像文本对中学习，然后识别场景中具有某些术语特征的片段，例如狗。然后，机器人可以应用该神经网络在全新的场景中发现狗。

但如何以与特定任务相关的有用方式解析场景仍然是一个挑战。

“典型的方法会选择一些任意的、固定的粒度级别来确定如何将场景的各个片段融合成你可以认为的一个‘对象’，”马吉奥说。“然而，你所谓的‘对象’的粒度实际上与机器人必须做的事情有关。如果在不考虑任务的情况下固定该粒度，那么机器人最终可能会得到对其自身无用的地图。任务”。

信息瓶颈

麻省理工学院团队通过 Clio 的目标是让机器人能够以一定的粒度解释周围的环境，并且可以自动调整以适应手头的任务。

例如，给定将一堆书移到书架上的任务，机器人应该能够确定整堆书是与任务相关的对象。同样，如果任务是仅从书堆的其余部分中移动绿皮书，则机器人应将绿皮书区分为单个目标对象，并忽略场景的其余部分（包括书堆中的其他书籍）。

该团队的方法结合了最先进的计算机视觉和大型语言模型，包括神经网络在数百万个开源图像和语义文本之间建立联系。它们还结合了映射工具，可以自动将图像分割成许多小片段，这些小片段可以输入神经网络以确定某些片段在语义上是否相似。

然后，研究人员利用经典信息理论中称为“信息瓶颈”的想法，利用该想法来压缩多个图像片段，从而挑选出并存储与给定任务在语义上最相关的片段。

“例如，假设场景中有一堆书，我的任务只是获取绿皮书。在这种情况下，我们将有关场景的所有信息推送到这个瓶颈，最终得到一组表示绿皮书，”马吉奥解释道。

“所有其他不相关的部分都被分组在一个集群中，我们可以简单地删除它们。我们留下了一个支持我的任务所需的正确粒度的对象。”

研究人员在不同的现实环境中演示了 Clio。

“我们认为，在我的公寓里运行 Clio 是一个真正严肃的实验，我事先没有做任何清洁工作，”马吉奥说。

该团队制定了一系列自然语言任务，例如“移动一堆衣服”，然后将 Clio 应用于马吉奥杂乱的公寓的图像。在这些情况下，Clio 能够快速分割公寓的场景，并通过信息瓶颈算法提供这些片段，以识别构成一堆衣服的片段。

他们还在波士顿动力公司的四足机器人 Spot 上运行了 Clio。他们给了机器人一份要完成的任务列表，当机器人探索并绘制办公楼内部的地图时，Clio 在安装在 Spot 上的机载计算机上实时运行，以挑选出映射场景中需要的片段。视觉上与给定任务相关。

该方法生成了一个仅显示目标对象的叠加地图，然后机器人使用该地图来接近已识别的对象并以物理方式完成任务任务。

“实时运行 Clio 对团队来说是一项巨大的成就，”Maggio 说。“许多前期工作可能需要几个小时才能完成。”

展望未来，该团队计划使 Clio 能够处理更高级别的任务，并以逼真的视觉场景表示的最新进展为基础。

“我们仍然给 Clio 分配了一些具体的任务，比如‘找到一副牌’，”马吉奥说。“对于搜索和救援，你需要赋予它更多高级任务，例如‘寻找幸存者’或‘恢复供电’。因此，我们希望对如何完成更复杂的任务有更人性化的理解。”

更多信息：Dominic Maggio 等人，Clio：实时任务驱动的开放集 3D 场景图，IEEE 机器人与自动化快报（2024）。DOI：10.1109/LRA.2024.3451395。dspace.mit.edu/handle/1721.1/157072这个故事由麻省理工学院新闻转载（

web.mit.edu/新闻办公室/），一个热门网站，涵盖有关麻省理工学院研究、创新和教学的新闻。引文

:新方法使机器人能够绘制场景、识别物体以完成一组任务（2024 年 9 月 30 日）检索日期：2024 年 10 月 1 日来自 https://techxplore.com/news/2024-09-method-enables-robots-scene-tasks.html

本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外，不得未经书面许可，不得复制部分内容。所提供的内容仅供参考。

另请参阅其他语言版本: English | 简中 | 正體 | 日本語 | 한국인 | हिंदी | Español