将计算机视觉和机器人技术中的下一个令牌预测和视频扩散相结合

2024-10-17 23:09:51

在当前的人工智能时代精神中，序列模型因其分析数据和预测下一步该做什么的能力而迅速流行。例如，您可能使用过 ChatGPT 等下一个标记预测模型，它预测序列中的每个单词（标记）以形成用户查询的答案。还有像 Sora 这样的全序列扩散模型，它通过连续对整个视频序列进行“去噪”，将单词转换为令人眼花缭乱、逼真的视觉效果。

Combining next-token prediction and video diffusion in computer vision and robotics — 图片来源：麻省理工学院

麻省理工学院计算机科学和人工智能实验室 (CSAIL) 的研究人员提出了对扩散训练方案的简单更改，使该序列去噪变得更加灵活。

当应用于计算机视觉和机器人等领域时，下一个令牌和全序列扩散模型需要进行能力权衡。下一个令牌模型可以输出长度不同的序列。

然而，他们在生成这些代时并没有意识到遥远的未来的理想状态（例如将其序列生成引导到 10 个令牌之外的某个目标），因此需要额外的机制来进行长期规划。扩散模型可以执行此类未来条件采样，但缺乏下一个令牌模型生成可变长度序列的能力。

CSAIL 的研究人员希望结合这两种模型的优势，因此他们创建了一种称为“扩散强迫”的序列模型训练技术。这个名字来自“Teacher Forcing”，这是一种传统的训练方案，它将完整的序列生成分解为更小、更容易的下一代令牌生成步骤（就像一个好老师简化一个复杂的概念）。

图片来源：麻省理工学院

扩散强迫发现了扩散模型和教师强迫之间的共同点：它们都使用涉及从未屏蔽标记中预测屏蔽（噪声）标记的训练方案。在扩散模型的情况下，它们逐渐向数据添加噪声，这可以被视为分数掩蔽。

麻省理工学院研究人员的扩散强迫方法训练神经网络来清理一组标记，消除每个标记中不同量的噪声，同时预测接下来的几个标记。结果是：灵活、可靠的序列模型，为机器人和人工智能代理带来更高质量的人工视频和更精确的决策。

通过对噪声数据进行排序并可靠地预测任务的后续步骤，扩散强迫可以帮助机器人忽略视觉干扰来完成操作任务。它还可以生成稳定一致的视频序列，甚至引导人工智能代理穿过数字迷宫。

这种方法有可能使家庭和工厂机器人能够推广到新任务并改善人工智能生成的娱乐。

“序列模型旨在以已知的过去为条件并预测未知的未来，这是一种二元屏蔽。然而，屏蔽不一定是二元的，”麻省理工学院的主要作者说电气工程和计算机科学（EECS）博士学位学生，CSAIL会员陈博源。

“通过扩散强迫，我们向每个标记添加不同级别的噪声，有效地充当一种分数掩蔽。在测试时，我们的系统可以“揭开”标记集合，并在不久的将来以较低的噪声扩散序列它知道在其数据中应该信任什么来克服分布外的输入。”

在多项实验中，扩散强迫在忽略误导性数据来执行任务同时预测未来行动方面表现出色。

当实施成机械臂例如，它帮助在三个圆形垫子上交换两个玩具水果，这是一系列需要记忆的长期任务的最小例子。研究人员通过在虚拟现实中远距离控制（或远程操作）机器人来训练机器人。

机器人经过训练可以通过摄像头模仿用户的动作。尽管从随机位置开始，并看到诸如购物袋挡住标记之类的干扰，但它还是将物体放置到了目标位置。

为了生成视频，他们在“我的世界”游戏和 Google DeepMind 实验室模拟器中创建的丰富多彩的数字环境中训练了扩散力。当给定单帧素材时，该方法比类似 Sora 的全序列等类似基线产生更稳定、更高分辨率的视频扩散模型和类似 ChatGPT 的下一个代币模型。

这些方法创建的视频看起来不一致，后者有时无法生成仅超过 72 帧的工作视频。

扩散强迫不仅可以生成精美的视频，还可以作为运动规划器来引导所需的结果或奖励。由于其灵活性，扩散强迫可以独特地生成不同视野的计划，执行树搜索，并结合遥远的未来比近期的未来更不确定的直觉。

在解决二维迷宫的任务中，扩散力通过生成更快的到达目标位置的计划，表现优于六个基线，这表明它可能成为未来机器人的有效规划器。

在每个演示中，扩散强迫充当完整序列模型、下一个令牌预测模型或两者兼而有之。陈表示，这种多功能方法有可能成为“世界模型”的强大支柱，“世界模型”是一种人工智能系统，可以通过数十亿互联网视频的训练来模拟世界的动态。

这将使机器人能够通过根据周围环境想象它们需要做什么来执行新奇的任务。例如，如果您要求机器人打开一扇门，而没有接受过如何操作的培训，则该模型可以生成一个视频来向机器展示如何操作。

该团队目前正在寻求将他们的方法扩展到更大的数据集和最新的变压器模型，以提高性能。他们打算扩大工作范围，构建一个类似 ChatGPT 的机器人大脑，帮助机器人在新环境中执行任务，而无需人类演示。

“通过扩散强迫，我们正在采取措施将视频生成和机器人技术更加紧密地结合在一起，”麻省理工学院助理教授、CSAIL 成员、高级作者文森特·西茨曼 (Vincent Sitzmann) 说道，他领导着 CSAIL 的场景表示小组。

“最后，我们希望能够利用互联网视频中存储的所有知识，让机器人在日常生活中提供帮助。仍然存在许多更令人兴奋的研究挑战，例如机器人如何通过观察人类来学习模仿人类，即使他们的我们自己的身体和我们自己的身体有很大不同。”

该团队将在以下会议上展示他们的研究成果：神经信息处理系统十二月，他们的论文是可用的于arXiv预印本服务器。

更多信息：Boyuan Chen 等人，扩散强迫：下一个标记预测满足全序列扩散，arXiv（2024）。DOI：10.48550/arxiv.2407.01392

期刊信息： arXiv

引文：将计算机视觉和机器人技术中的下一个代币预测与视频扩散相结合（2024 年 10 月 17 日）检索日期：2024 年 10 月 17 日来自 https://techxplore.com/news/2024-10-combining-token-video-diffusion-vision.html

本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外，不得未经书面许可，不得复制部分内容。所提供的内容仅供参考。

另请参阅其他语言版本: English | 简中 | 正體 | 日本語 | 한국인 | हिंदी | Español