Precision home robots learn with real-to-sim-to-real
在「數位雙胞胎」的幫助下,由麻省理工學院研究人員 Marcel Torne Villasevil(左)和 Pulkit Agrawal 開發的 RialTo 可以指導機器人在模擬環境中練習,比在現實環境中磨練技能要快得多。現實世界。圖片來源:Mike Grimmett/MIT CSAIL

在許多自動化願望清單中,排在第一位的是一項特別耗時的任務:家事。

許多機器人專家的登月計畫是建立適當的硬體和軟體組合,以便機器能夠學習在任何情況下、任何地方都有效的「通才」策略(指導機器人行為的規則和策略)。

但實際上,如果你有一個家庭機器人,你可能不太在乎它為你的鄰居工作。考慮到這一點,麻省理工學院電腦科學和人工智慧實驗室(CSAIL)的研究人員決定嘗試尋找一種解決方案,以便輕鬆地針對特定環境訓練強大的機器人策略。

麻省理工學院Improbable AI 實驗室CSAIL 研究助理兼論文主要作者Marcel Torne Villasevil 表示:「我們的目標是讓機器人在幹擾、分心、變化的照明條件以及物體姿勢變化的情況下,在單一環境中表現出色。關於出現在預印本伺服器上的作品arXiv

「我們提出了一種利用電腦視覺領域的最新進展動態創建數位孿生的方法。只需使用手機,任何人都可以捕捉現實世界的數位複製品,並且機器人可以在模擬環境中比真實環境更快地進行訓練得益於 GPU 並行化,我們的方法通過利用一些真實世界的演示來啟動訓練過程,從而消除了對大量獎勵工程的需要。

帶你的機器人回家

當然,RialTo 比簡單地揮動電話和(繁榮!)家庭機器人為您服務要複雜一些。首先使用您的裝置使用 NeRFStudio、ARCode 或 Polycam 等工具掃描目標環境。場景重建完成後,使用者可以將其上傳到RialTo的介面進行詳細調整,為機器人添加必要的關節等。

匯出精緻的場景並將其帶入模擬器中。在這裡,我們的目標是製定一項基於現實世界行動和觀察的政策,例如抓起櫃檯上的杯子的政策。這些現實世界的演示在模擬中得到複製,為強化學習提供了一些有價值的數據。

「這有助於創建在模擬和現實世界中都有效的強大策略。使用強化學習的增強演算法有助於指導這一過程,以確保策略在模擬器之外應用時有效,」Torne 說。

測試表明,RialTo 為各種任務創建了強有力的策略,無論是在受控實驗室環境中還是在更不可預測的現實環境中,在相同數量的演示下,比模仿學習提高了 67%。這些任務包括打開烤麵包機、將書放在架子上、將盤子放在架子上、將杯子放在架子上、打開抽屜和打開櫃子。

對於每項任務,研究人員在三個逐漸增加的難度等級下測試了系統的表現:隨機化物體姿勢、添加視覺幹擾物以及在任務執行過程中施加物理幹擾。當與現實世界的數據結合使用時,該系統的表現優於傳統的模仿學習方法,尤其是在存在大量視覺幹擾或物理幹擾的情況下。

具有真實到模擬到真實的精密家庭機器人。圖片來源:麻省理工學院 CSAIL

Improbable AI 總監Pulkit Agrawal 表示:「這些實驗表明,如果我們關心對某一特定環境的穩健性,最好的想法是利用數位孿生,而不是試圖透過在不同環境中收集大規模數據來獲得穩健性。

就限製而言,RialTo 目前需要三天才能完成完全訓練。為了加快速度,團隊提到改進底層演算法並使用基礎模型。模擬訓練也有其局限性,目前很難輕鬆進行模擬到真實的轉換並模擬可變形的物體或液體。

下一個級別

那麼 RialTo 的下一步旅程是什麼呢?在先前的努力的基礎上,科學家們正在努力保持對各種幹擾的穩健性,同時提高模型對新環境的適應性。

「我們的下一步努力是使用預先訓練的模型,加速學習過程,最大限度地減少人工輸入,並實現更廣泛的泛化能力,」托恩說。

「我們對『即時』機器人程式設計概念充滿熱情,機器人可以自主掃描環境並學習如何在模擬中解決特定任務。雖然我們目前的方法有局限性,例如需要一些初始人類的演示和訓練這些策略的大量計算時間(最多三天)——我們認為這是實現『即時』機器人學習和部署的重要一步,」Torne 說。

「這種方法使我們更接近未來,機器人不需要涵蓋所有場景的現有策略。相反,它們可以快速學習新任務,而無需廣泛的現實世界互動。在我看來,這一進步可以加快機器人技術比僅僅依靠普遍的、包羅萬象的政策要早得多。

「為了在現實世界中部署機器人,研究人員傳統上依賴從專家數據中進行模仿學習等方法,這種方法可能很昂貴,或者,這可能不安全,」華盛頓大學計算機科學博士生佐伊·陳(Zoey Chen)說道,她沒有參與這篇論文。

「RialTo 憑藉其新穎的真實到模擬到真實的管道,直接解決了現實世界 RL [機器人學習] 的安全約束,以及數據驅動學習方法的有效數據約束。

「這種新穎的管道不僅確保在實際部署之前進行安全可靠的模擬訓練,而且還顯著提高了資料收集的效率。RialTo 具有顯著擴大規模的潛力學習並使機器人更有效地適應複雜的現實場景。

計算機科學博士馬呂斯·梅梅爾 (Marius Memmel) 補充道:“仿真通過為政策學習提供廉價且可能無限的數據,在真實機器人上展示了令人印象深刻的能力。”華盛頓大學的學生,並沒有參與這項工作。

「然而,這些方法僅限於少數特定場景,構建相應的模擬既昂貴又費力。RialTo 提供了一種易於使用的工具,可以在幾分鐘而不是幾小時內重建現實世界環境。

「此外,它在政策學習期間廣泛使用收集的演示,最大限度地減少操作員的負擔並縮小sim2real 差距。RialTo 展示了對物體姿勢和乾擾的魯棒性,顯示出令人難以置信的現實世界性能,而不需要大量的模擬器建構和數據收集。

更多資訊:Marcel Torne 等人,透過模擬協調現實:一種用於穩健操縱的從真實到模擬到真實的方法,arXiv(2024)。DOI:10.48550/arxiv.2403.03949

期刊資訊: arXiv

這個故事由麻省理工學院新聞轉載(web.mit.edu/新聞辦公室/),一個熱門網站,涵蓋有關麻省理工學院研究、創新和教學的新聞。

引文:研究人員推出了新方法,允許在模擬掃描的家庭環境中訓練機器人(2024 年,8 月 1 日)檢索日期:2024 年 8 月 1 日取自 https://techxplore.com/news/2024-08-approach-robots-simulations-scanned-home.html

本文檔受版權保護。除了出於私人學習或研究目的的任何公平交易外,不得未經書面許可,不得複製部分內容。所提供的內容僅供參考。