计算方法可以通过对话不断地教机器人新技能

2024-09-19 10:56:54

虽然机器人专家在过去几十年中引入了越来越复杂的机器人系统，但迄今为止引入的大多数解决方案都是经过预先编程和训练的，以解决特定任务。在与机器人互动的同时不断教授机器人新技能的能力可能非常有益，并且可以促进它们的广泛使用。

An approach to continually teach robots new skills via dialogues — 我们的框架在用户研究中的一个示例运行，其中用户要求机器人制作三明治，但机器人不知道如何切奶酪，因此它要求用户提供语言帮助，在用户教授此技能后，机器人存储此技能技能，并且可以永远使用它来单独制作类似的三明治。这项工作是一条通往机器人的道路，它可以根据人类对现实世界家务的反馈继续学习。信用：*arXiv*（2024）。DOI：10.48550/arxiv.2409.03166

亚利桑那州立大学（ASU）的研究人员最近开发了一种新的计算方法这可以让用户通过基于对话的交互不断训练机器人执行新任务。这种方法引入了纸发布到arXiv预印本服务器最初用于教导机器人操纵器如何成功准备冷三明治。

该论文的指导作者 Nakul Gopalan 告诉 Tech Xplore：“我们的目标是为在人们家中部署能够学习烹饪冷餐的机器人做出贡献。”“我们希望从用户的角度出发，了解人们需要家用机器人的哪些行为。

“这种用户视角使我们在与机器人交流时使用语言和对话。不幸的是，这些机器人可能不会知道所有事情，比如如何为你煮意大利面。”

戈帕兰和他的同事最近工作的主要目标是设计一种方法，使机器人能够快速从人类代理那里获得以前未知的技能或行为。

在一个上一篇论文，在 AAAI 人工智能会议上发表，该团队专注于教导机器人通过基于对话的交互来完成视觉任务。他们的新研究建立在之前的努力的基础上，引入了一种更全面的基于对话的机器人训练方法。

“我们这项工作的范围是通过允许用户个性化他们的机器人来提高机器人的适用性，”该论文的合著者 Weiwei Gu 告诉 Tech Xplore。“由于机器人需要为不同的用户完成不同的任务，而完成这些任务需要不同的技能，制造商不可能预先训练机器人拥有所有这些场景所需的所有技能。因此，机器人需要获得这些技能来自用户的技能和任务相关知识。”

为了确保机器人能够有效地从用户那里获取新技能，团队必须克服各种挑战。首先，他们必须确保人类用户在教导机器人时参与其中，并且机器人以非专家用户可以理解的方式传达任何疑问或请求额外信息。

“其次，机器人需要从与用户的几次互动中获取知识，因为用户不能无限长时间地与机器人呆在一起，”顾说。“最后，尽管获得了新知识，机器人也不应该忘记任何预先存在的知识。”

Gopalan、Gu 及其同事 Suresh Kondepudi 和 Lixiao Huang 着手共同解决持续学习的所有这些要求。他们提出的交互式持续学习系统通过三个不同的组件来处理这三个子任务。

“首先，基于大型语言模型 (LLM) 的对话系统向用户提出问题，以获取它可能没有的任何知识或继续与人们互动，”Gopalan 解释道。“但是，机器人怎么知道它不知道某些事情呢？

“为了解决这个问题，我们在机器人技能库上训练了第二个组件，并学习了它们与语言命令的映射。如果所请求的技能与机器人已经掌握的语言不接近，它会要求进行演示。”

该团队新开发的系统还包括一种机制，可以让机器人理解人类何时演示如何完成任务。如果提供的演示不够，并且他们还没有可靠地获得技能，该模块允许机器人要求额外的技能。

“我们联合使用技能表示和语言表示来模拟机器人的技能知识，”顾说。“当机器人需要执行一项技能时，它首先通过比较该技能的语言表示和机器人拥有的所有技能的语言表示来估计它是否具备直接执行该技能的能力。

“如果机器人有信心能够执行该技能，则它会直接执行该技能。否则，它会要求用户在机器人面前亲自执行该技能来演示该技能。”

本质上，在机器人观察到用户完成特定任务后，团队的系统会根据收集到的视觉信息确定它已经具备完成该任务所需的技能。

如果系统预测机器人还没有获得新技能，机器人会要求用户使用遥控器描绘相关的机器人轨迹，这样它就可以将这些轨迹添加到技能库中，并在机器人中独立完成相同的任务。未来。

顾说：“我们将这些技能表示与法学硕士联系起来，让机器人表达自己的疑虑，这样即使是非专家用户也能理解机器人的要求并提供相应的帮助。”

该系统的第二个模块基于具有低秩自适应（LoRA）的预训练和微调动作分块变压器（ACT）。最后，该团队开发了一个持续学习模块，允许机器人不断向其技能库添加新技能。

“在机器人使用某些预先选择的技能进行预训练后，神经网络的大部分权重是固定的，只有低阶适应引入的一小部分权重用于为机器人学习新技能”顾说。“我们发现我们的算法能够有效地学习新技能，而不会灾难性地忘记任何预先存在的技能。”

研究人员在一系列实际测试中评估了他们提出的闭环技能学习系统，并将其应用于 Franka FR3 机器人操纵器。该机器人与八名人类用户互动，并逐渐学会了处理一项简单的日常任务，即制作三明治。

“我们可以通过与真实用户对话来演示闭环技能培训方法，这一事实本身就令人印象深刻，”Gopalan 说。“我们证明机器人可以制作由来到我们实验室的用户教授的三明治。”

研究人员收集到的初步结果非常有希望，因为仅经过五次人类演示后，ACT-LORA 组件就被发现能够以 100% 的准确度获得新的微调技能。此外，该模型在预训练技能上保留了 74.75% 的准确率，优于其他类似模型。

顾说：“我们非常高兴我们设计的机器人系统能够与真实用户一起运行，因为它展示了这项工作的真实机器人应用的光明前景。”“但是，我们确实找到了提高此类系统通信效率的空间。”

尽管新开发的学习系统在团队的实验中取得了良好的效果，但它也存在一些局限性。例如，该团队发现它无法支持机器人和人类用户之间的轮流，因此它依赖研究人员来阐明该轮到谁来处理手头的任务。

“虽然我们的发现令我们兴奋，但我们也观察到机器人需要时间来学习，这可能会让用户感到恼火，”戈帕兰说。“我们仍然必须找到使这个过程更快的机制，这是我们下一步打算解决的核心机器学习问题。

“我们希望这项工作能够进入人们的家中进行真正的实验，这样我们就知道在家庭护理情况下使用机器人存在的挑战在哪里。”

顾、戈帕兰和他的同事开发的系统很快就会得到进一步改进，并在更广泛的烹饪任务上进行测试。研究人员现在正在致力于解决他们观察到的轮流问题，并扩大用户可以教机器人做饭的饭菜范围。他们还计划进行更多的实验，涉及更多的人类参与者。

“轮流问题是自然交互中一个有趣的问题，”顾补充道。“这个研究问题对交互式家庭机器人也有很强的应用意义。

“除了解决这个问题之外，我们还有兴趣通过引入更多不同的任务并用来自现实世界人口统计的用户对我们的系统进行实验来扩大这项工作的规模。”

更多信息：Weiwei Gu 等人，通过对话进行持续技能和任务学习，arXiv（2024）。DOI：10.48550/arxiv.2409.03166

期刊信息： arXiv

引文:计算方法可以通过对话不断地教机器人新技能（2024 年，9 月 19 日）检索日期：2024 年 9 月 19 日来自 https://techxplore.com/news/2024-09-approach-robots-skills-dialogue.html

本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外，不得未经书面许可，不得复制部分内容。所提供的内容仅供参考。

另请参阅其他语言版本: English | 简中 | 正體 | 日本語 | 한국인 | हिंदी | Español