將電腦視覺和機器人技術中的下一個令牌預測和視訊擴散相結合

2024-10-17 23:09:51

在當前的人工智慧時代精神中，序列模型因其分析數據和預測下一步該做什麼的能力而迅速流行。例如，您可能使用過 ChatGPT 等下一個標記預測模型，它預測序列中的每個單字（標記）以形成使用者查詢的答案。還有像 Sora 這樣的全序列擴散模型，它透過連續對整個視頻序列進行“去噪”，將單字轉換為令人眼花繚亂、逼真的視覺效果。

Combining next-token prediction and video diffusion in computer vision and robotics — 圖片來源：麻省理工學院

麻省理工學院計算機科學和人工智慧實驗室 (CSAIL) 的研究人員提出了對擴散訓練方案的簡單更改，使該序列去噪變得更加靈活。

當應用於電腦視覺和機器人等領域時，下一個令牌和全序列擴散模型需要進行能力權衡。下一個令牌模型可以輸出長度不同的序列。

然而，他們在生成這些世代時並沒有意識到遙遠的未來的理想狀態（例如將其序列生成引導到 10 個令牌之外的某個目標），因此需要額外的機制來進行長期規劃。擴散模型可以執行此類未來條件採樣，但缺乏下一個令牌模型產生可變長度序列的能力。

CSAIL 的研究人員希望結合這兩種模型的優勢，因此他們創建了一種稱為「擴散強迫」的序列模型訓練技術。這個名字來自“Teacher Forcing”，這是一種傳統的訓練方案，它將完整的序列生成分解為更小、更容易的下一代令牌生成步驟（就像一個好老師簡化一個複雜的概念）。

圖片來源：麻省理工學院

擴散強迫發現了擴散模型和教師強迫之間的共同點：它們都使用涉及從未屏蔽標記中預測屏蔽（噪音）標記的訓練方案。在擴散模型的情況下，它們逐漸向資料添加噪聲，這可以被視為分數掩蔽。

麻省理工學院研究人員的擴散強迫方法訓練神經網路來清理一組標記，消除每個標記中不同量的噪聲，同時預測接下來的幾個標記。結果是：靈活、可靠的序列模型，為機器人和人工智慧代理帶來更高品質的人工影片和更精確的決策。

透過對噪音資料進行排序並可靠地預測任務的後續步驟，擴散強迫可以幫助機器人忽略視覺幹擾來完成操作任務。它還可以產生穩定一致的影片序列，甚至引導人工智慧代理穿越數位迷宮。

這種方法有可能使家庭和工廠機器人能夠推廣到新任務並改善人工智慧生成的娛樂。

「序列模型旨在以已知的過去為條件並預測未知的未來，這是一種二元屏蔽。然而，屏蔽不一定是二元的，」麻省理工學院的主要作者說電機工程和電腦科學（EECS）博士學位學生，CSAIL會員陳博源。

「透過擴散強迫，我們為每個標記添加不同級別的噪聲，有效地充當一種分數掩蔽。在測試時，我們的系統可以「揭開」標記集合，並在不久的將來以較低的噪聲擴散序列它知道在其數據中應該信任什麼來克服分佈外的輸入。

在多項實驗中，擴散強迫在忽略誤導性數據來執行任務同時預測未來行動方面表現出色。

當實施成機械手臂例如，它幫助在三個圓形墊子上交換兩個玩具水果，這是一系列需要記憶的長期任務的最小例子。研究人員透過在虛擬實境中遠距離控制（或遠端操作）機器人來訓練機器人。

機器人經過訓練可以透過攝影機模仿使用者的動作。儘管從隨機位置開始，並看到諸如購物袋擋住標記之類的干擾，但它還是將物體放置到了目標位置。

為了生成視頻，他們在“我的世界”遊戲和 Google DeepMind 實驗室模擬器中創建的豐富多彩的數位環境中訓練了擴散力。當給定單幀素材時，該方法比類似 Sora 的全序列等類似基線產生更穩定、更高分辨率的視頻擴散模型和類似 ChatGPT 的下一個代幣模型。

這些方法創建的影片看起來不一致，後者有時無法產生僅超過 72 幀的工作影片。

擴散強迫不僅可以產生精美的視頻，還可以作為運動規劃器來引導所需的結果或獎勵。由於其靈活性，擴散強迫可以獨特地產生不同視野的計劃，執行樹搜索，並結合遙遠的未來比近期的未來更不確定的直覺。

在解決二維迷宮的任務中，擴散力透過產生更快的到達目標位置的計劃，表現優於六個基線，這表明它可能成為未來機器人的有效規劃器。

在每個演示中，擴散強迫充當完整序列模型、下一個令牌預測模型或兩者兼而有之。陳表示，這種多功能方法有可能成為「世界模型」的強大支柱，「世界模型」是一種人工智慧系統，可以透過數十億網路影片的訓練來模擬世界的動態。

這將使機器人能夠透過根據周圍環境想像它們需要做什麼來執行新奇的任務。例如，如果您要求機器人打開一扇門，而沒有接受過如何操作的培訓，則該模型可以產生一個影片來向機器展示如何操作。

該團隊目前正在尋求將他們的方法擴展到更大的數據集和最新的變壓器模型，以提高效能。他們打算擴大工作範圍，建造一個類似 ChatGPT 的機器人大腦，幫助機器人在新環境中執行任務，而無需人類演示。

「透過擴散強迫，我們正在採取措施將視頻生成和機器人技術更加緊密地結合在一起，」麻省理工學院助理教授、CSAIL 成員、高級作者文森特·西茨曼(Vincent Sitzmann) 說道，他領導著CSAIL 的場景表示小組。

「最後，我們希望能夠利用網路影片中儲存的所有知識，讓機器人在日常生活中提供幫助。仍然存在許多更令人興奮的研究挑戰，例如機器人如何透過觀察人類來學習模仿人類，即使他們的我們自己的身體和我們自己的身體有很大不同。

團隊將在以下會議上展示他們的研究成果：神經資訊處理系統十二月，他們的論文是可用的於arXiv預印本伺服器。

更多資訊：Boyuan Chen 等人，擴散強迫：下一個標記預測滿足全序列擴散，arXiv（2024）。DOI：10.48550/arxiv.2407.01392

期刊資訊： arXiv

引文：將電腦視覺和機器人技術中的下一個代幣預測與視訊擴散相結合（2024 年 10 月 17 日）檢索日期：2024 年 10 月 17 日來自 https://techxplore.com/news/2024-10-combining-token-video-diffusion-vision.html

本文檔受版權保護。除了出於私人學習或研究目的的任何公平交易外，不得未經書面許可，不得複製部分內容。所提供的內容僅供參考。

另請參閱其他語言版本: English | 简中 | 正體 | 日本語 | 한국인 | हिंदी | Español