Helping robots zero in on the objects that matter
麻省理工學院的Clio 即時運行,繪製機器人周圍環境中與任務相關的物體的地圖,從而使機器人(波士頓動力公司的四足機器人Spot,如圖)執行自然語言任務(「拿起橙色背包」) 。圖片來源:麻省理工學院

想像一下,必須整理一個凌亂的廚房,從散落著醬料包的櫃檯開始。如果您的目標是將櫃檯擦乾淨,您可以將資料包作為一個整體進行清理。但是,如果您想先挑出芥末包,然後再扔掉其餘的,則可以根據醬汁類型進行更有區別的分類。如果在眾多芥末中,您對 Grey Poupon 情有獨鍾,那麼找到這個特定品牌就需要更仔細的搜尋。

麻省理工學院的工程師開發了一種方法,使機器人能夠做出類似直覺的、與任務相關的決策。

該團隊的新方法名為 Clio,能夠實現辨識 a 的各個部分考慮到手頭上的任務,這一點很重要。透過 Clio,機器人可以接收以下描述的任務清單:然後,根據這些任務,它確定解釋周圍環境所需的粒度級別,並僅「記住」場景中相關的部分。

在從雜亂的小隔間到麻省理工學院校園內五層樓的真實實驗中,團隊使用Clio 根據自然語言提示中指定的一組任務(例如“移動機架”)自動以不同粒度級別分割場景。

該團隊還運行了 Clio在四腳機器人上。當機器人探索辦公大樓時,Clio 僅識別並繪製場景中與機器人任務相關的部分(例如檢索狗玩具,同時忽略成堆的辦公用品),從而使機器人能夠抓住感興趣的物體。

Clio 以希臘歷史繆斯命名,因為它能夠辨識並記住對特定任務而言重要的元素。研究人員預計,Clio 將在許多情況和環境中發揮作用,在這些情況和環境中,機器人必須在給定任務的背景下快速調查並理解周圍環境。

麻省理工學院航空航天系(AeroAstro) 副教授、Clio 計畫首席研究員Luca Carlone 表示:「搜尋和救援是這項工作的主要應用,但Clio 還可以為家用機器人和在工廠車間與人類一起工作的機器人提供動力。“這實際上是為了幫助機器人了解環境以及它必須記住什麼才能執行其任務。”

該團隊在一份報告中詳細介紹了他們的結果學習今天發表在雜誌上IEEE 機器人與自動化快報。Carlone 的合著者包括 SPARK 實驗室的成員:Dominic Maggio、Yun Chang、Nathan Hughes 和 Lukas Schmid;麻省理工學院林肯實驗室成員:Matthew Trang、Dan Griffith、Carlyn Dougherty 和 Eric Cristofalo。

開放領域

電腦視覺和自然語言處理領域的巨大進步使機器人能夠識別周圍的物體。但直到最近,機器人只能在「封閉式」場景中做到這一點,在這種場景中,它們被編程為在精心策劃和控制的環境中工作,並且機器人經過預先訓練以識別有限數量的物體。

近年來,研究人員採取了更「開放」的方法,使機器人能夠在更真實的環境中識別物體。在開放集辨識領域,研究人員利用深度學習工具建立神經網絡,可以處理來自互聯網的數十億張圖像,以及每張圖像的相關文字(例如朋友的Facebook 圖片,標題為「認識一隻狗」) 。

神經網路從數百萬個圖像文字對中學習,然後識別場景中具有某些術語特徵的片段,例如狗。然後,機器人可以應用該神經網路在全新的場景中發現狗。

但如何以與特定任務相關的有用方式解析場景仍然是一個挑戰。

“典型的方法會選擇一些任意的、固定的粒度級別來確定如何將場景的各個片段融合成你可以認為的一個‘對象’,”馬吉奧說。「然而,你所謂的『對象』的粒度實際上與機器人必須做的事情有關。如果在不考慮任務的情況下固定該粒度,那麼機器人最終可能會得到對其自身無用的地圖。任務」。

資訊瓶頸

麻省理工學院團隊透過 Clio 的目標是讓機器人以一定的粒度解釋周圍的環境,並且可以自動調整以適應手邊的任務。

例如,給定將一堆書移到書架上的任務,機器人應該能夠確定整堆書是與任務相關的物件。同樣,如果任務是僅從書堆的其餘部分中移動綠皮書,則機器人應將綠皮書區分為單個目標對象,並忽略場景的其餘部分(包括書堆中的其他書籍)。

該團隊的方法結合了最先進的電腦視覺和大型語言模型,包括在數百萬個開源圖像和語義文字之間建立聯繫。它們還結合了映射工具,可以自動將圖像分割成許多小片段,這些小片段可以輸入神經網路以確定某些片段在語義上是否相似。

然後,研究人員利用經典資訊理論中稱為「資訊瓶頸」的想法,利用該想法來壓縮多個圖像片段,從而挑選出並儲存與給定任務在語義上最相關的片段。

「例如,假設場景中有一堆書,我的任務只是獲取綠皮書。在這種情況下,我們將有關場景的所有資訊推送到這個瓶頸,最終得到一組表示綠皮書,」馬吉奧解釋道。

“所有其他不相關的部分都被分組在一個集群中,我們可以簡單地刪除它們。我們留下了一個支持我的任務所需的正確粒度的對象。”

研究人員在不同的現實環境中演示了 Clio。

「我們認為,在我的公寓裡運行 Clio 是一個真正嚴肅的實驗,我事先沒有做任何清潔工作,」馬吉奧說。

該團隊制定了一系列自然語言任務,例如“移動一堆衣服”,然後將 Clio 應用於馬吉奧雜亂的公寓的圖像。在這些情況下,Clio 能夠快速分割公寓的場景,並透過資訊瓶頸演算法提供這些片段,以識別構成一堆衣服的片段。

他們還在波士頓動力公司的四足機器人 Spot 上運行了 Clio。他們給了機器人一份要完成的任務列表,當機器人探索並繪製辦公大樓內部的地圖時,Clio 在安裝在 Spot 上的機載計算機上實時運行,以挑選出映射場景中需要的片段。與給定任務相關。

該方法產生了一個僅顯示目標物件的疊加地圖,然後機器人使用該地圖來接近已識別的物件並以物理方式完成任務

「即時運行 Clio 對團隊來說是一項巨大的成就,」Maggio 說。“許多前期工作可能需要幾個小時才能完成。”

展望未來,該團隊計劃使 Clio 能夠處理更高級別的任務,並以逼真的視覺場景表示的最新進展為基礎。

“我們仍然給 Clio 分配了一些具體的任務,例如‘找到一副牌’,”馬吉奧說。「對於搜救,你需要賦予它更多高級任務,例如『尋找倖存者』或『恢復供電』。因此,我們希望對如何完成更複雜的任務有更人性化的理解。

更多資訊:Dominic Maggio 等人,Clio:即時任務驅動的開放集 3D 場景圖,IEEE 機器人與自動化快報(2024)。DOI:10.1109/LRA.2024.3451395。dspace.mit.edu/handle/1721.1/157072這個故事由麻省理工學院新聞轉載(

web.mit.edu/新聞辦公室/),一個熱門網站,涵蓋有關麻省理工學院研究、創新和教學的新聞。引文

:新方法使機器人能夠繪製場景、識別物體以完成一組任務(2024 年 9 月 30 日)檢索日期:2024 年 10 月 1 日來自 https://techxplore.com/news/2024-09-method-enables-robots-scene-tasks.html

本文檔受版權保護。除了出於私人學習或研究目的的任何公平交易外,不得未經書面許可,不得複製部分內容。所提供的內容僅供參考。