Multiple AI models help robots execute complex plans more transparently
麻省理工學院 CSAIL 開發的 HiP 框架利用三種不同基礎模型的專業知識為機器人制定詳細的計劃,幫助其執行家庭、工廠和建築中需要多個步驟的任務。圖片來源:Alex Shipps/MIT CSAIL

您的每日待辦事項清單可能非常簡單:洗碗、購買雜貨和其他細節。你不太可能寫下“拿起第一個髒盤子”或“用海綿清洗盤子”,因為家務活中的每一個微型步驟都感覺很直觀。雖然我們可以不加思考地例行完成每個步驟,但機器人需要一個複雜的計劃,其中涉及更詳細的輪廓。

麻省理工學院的Improbable AI 實驗室是電腦科學與人工智慧實驗室(CSAIL) 內的一個小組,它為這些機器提供了一個新的多模式框架:層級規劃的組合基礎模型(HiP),該模型可以利用三種不同基礎模型的專業知識。與 OpenAI 的 GPT-4(ChatGPT 和 Bing Chat 建構的基礎模型)一樣,這些基礎模型接受了大量資料的訓練,適用於生成影像、翻譯文字和機器人等應用。

工作是發表arXiv預印本伺服器。

與 RT2 和其他在配對視覺、語言和動作資料上進行訓練的多模態模型不同,HiP 使用三種不同的基礎模型,每個模型都在不同的資料模態上進行訓練。每個基礎模型捕捉決策過程的不同部分,然後在需要做出決策時一起工作。HiP 消除了存取配對視覺、語言和動作數據的需要,而這些數據很難獲得。HiP 也讓推理過程更加透明。

人類日常瑣事可能是機器人的「長期目標」——一個總體目標,包括首先完成許多較小的步驟——需要足夠的數據來規劃、理解和執行目標。雖然電腦視覺研究人員試圖為這個問題建立整體基礎模型,但配對語言、視覺和動作數據的成本很高。相反,HiP 代表了一種不同的多模式配方:將語言、物理和環境智慧廉價地整合到機器人中的三重奏。

「基礎模型不必是單一的,」未參與論文的 NVIDIA AI 研究員 Jim Fan 說。“這項工作將具體代理規劃的複雜任務分解為三個組成模型:語言推理器、視覺世界模型和行動規劃器。它使困難的決策問題變得更加容易處理和透明。”

團隊相信他們的系統可以幫助這些機器完成家務,例如收起一本書或將碗放入洗碗機中。此外,HiP 可以協助完成多步驟的建造和製造任務,例如按特定順序堆疊和放置不同的材料。

評估 HiP

CSAIL 團隊測試了 HiP 在三個操作任務上的敏銳度,其表現優於同類框架。該系統透過開發適應新資訊的智慧計劃進行推理。

首先,研究人員要求它將不同顏色的區塊相互堆疊,然後將其他區塊放在附近。問題是:一些正確的顏色不存在,因此機器人必須將白色塊放入顏色碗中才能繪製它們。HiP 經常準確地適應這些變化,特別是與 Transformer BC 和 Action Diffuser 等最先進的任務規劃系統相比,它透過調整其計劃來根據需要堆疊和放置每個方塊。

另一項測試:將糖果和鐵鎚等物品放入棕色盒子中,而忽略其他物品。它需要移動的一些物體很髒,因此 HiP 調整了計劃,將它們放入清潔箱中,然後放入棕色容器中。在第三次演示中,機器人能夠忽略不必要的物體來完成廚房的子目標,例如打開微波爐、清理水壺以及打開燈。一些提示步驟已經完成,因此機器人透過跳過這些指示進行適應。

三管齊下的等級制度

HiP 的三管齊下的規劃流程按層次結構運行,能夠根據不同的資料集(包括機器人以外的資訊)對其每個組件進行預訓練。這個順序的底部是一個大型語言模型(LLM),它透過捕捉所需的所有符號資訊並制定抽象任務計劃來開始構思。該模型應用在網路上找到的常識知識,將其目標分解為子目標。例如,「泡一杯茶」變成「在壺裡裝水」、「燒壺」以及後續所需的動作。

「我們想要做的就是採用現有的預訓練模型並讓它們成功地相互連接,」博士阿努拉格·阿賈伊(Anurag Ajay)說。麻省理工學院電機工程與電腦科學系 (EECS) 的學生和 CSAIL 附屬機構。「我們不是推動一種模型來做所有事情,而是結合利用不同形式的互聯網數據的多種模型。當串聯使用時,它們有助於機器人決策,並有可能幫助完成家庭、工廠和建築工地的任務。

這些模型還需要某種形式的「眼睛」來了解它們運行的環境並正確執行每個子目標。該團隊使用大型視訊擴散模型來增強法學碩士完成的初始規劃,該規劃從互聯網上的鏡頭中收集有關世界的幾何和物理資訊。反過來,視頻模型會產生觀察軌跡計劃,細化法學碩士的大綱以納入新的物理知識。

這個過程被稱為迭代細化,允許 HiP 對其想法進行推理,在每個階段吸收回饋以產生更實用的大綱。回饋流程類似於撰寫文章,作者可以將草稿發送給編輯,並在合併修訂後,出版商審查所有最後的更改並最終確定。

在這種情況下,層次結構的頂部是一個以自我為中心的動作模型,或者是一系列第一人稱圖像,可以根據周圍環境推斷應該採取哪些動作。在此階段,視訊模型的觀察計畫被映射到機器人可見的空間上,幫助機器決定如何在長視野目標內執行每項任務。如果機器人使用 HiP 泡茶,這意味著它將準確標記壺、水槽和其他關鍵視覺元素的位置,並開始完成每個子目標。

儘管如此,多模態工作仍因缺乏高品質視訊基礎模型而受到限制。一旦可用,它們可以與 HiP 的小規模視訊模型交互,以進一步增強視覺序列預測和行動的產生。更高品質的版本還將降低視訊模型當前的資料要求。

話雖如此,CSAIL 團隊的方法總體上僅使用了極少量的數據。此外,HiP 的訓練成本低廉,並展示了使用現成的基礎模型來完成長期任務的潛力。

「Anurag 所展示的是我們如何採用在單獨任務和資料模式上訓練的模型並將其組合成機器人規劃模型的概念驗證。未來,HiP 可以透過可以處理觸摸的預訓練模型進行增強麻省理工學院EECS助理教授兼Improbable AI 實驗室主任、資深作者Pulkit Agrawal 說。該小組也正在考慮應用 HiP 來解決現實世界中機器人技術的長期任務。

Ajay 和 Agrawal 是一篇描述這項工作的論文的主要作者。麻省理工學院教授和 CSAIL 首席研究員 Tommi Jaakkola、Joshua Tenenbaum 和 Leslie Pack Kaelbling 也加入了他們的行列;CSAIL 研究附屬機構兼 MIT-IBM AI 實驗室研究經理 Akash Srivastava;研究生 Seungwook Han 和 Yilun Du;前博士後 Abhishek Gupta,現任華盛頓大學助理教授;和前研究生李爽博士

更多資訊:Anurag Ajay 等人,分層規劃的組合基礎模型,arXiv(2023)。DOI:10.48550/arxiv.2309.08587

期刊資訊: arXiv

這個故事由麻省理工學院新聞轉載(web.mit.edu/新聞辦公室/),一個熱門網站,涵蓋有關麻省理工學院研究、創新和教學的新聞。

引文:多種AI模型幫助機器人更透明地執行複雜計畫(2024年1月8日)檢索日期:2024 年 1 月 8 日來自 https://techxplore.com/news/2024-01-multiple-ai-robots-complex-transparently.html

本文檔受版權保護。除了出於私人學習或研究目的的任何公平交易外,不得未經書面許可,不得複製部分內容。所提供的內容僅供參考。