計算方法可以透過對話不斷地教導機器人新技能

2024-09-19 10:56:54

雖然機器人專家在過去幾十年中引入了越來越複雜的機器人系統，但迄今為止引入的大多數解決方案都是預先編程和訓練的，以解決特定任務。在與機器人互動的同時不斷教授機器人新技能的能力可能非常有益，並且可以促進它們的廣泛使用。

An approach to continually teach robots new skills via dialogues — 我們的框架在用戶研究中的一個示例運行，其中用戶要求機器人製作三明治，但機器人不知道如何切奶酪，因此它要求用戶提供語言幫助，在用戶教授此技能後，機器人存儲此技能技能，並且可以永遠使用它來單獨製作類似的三明治。這項工作是一條通往機器人的道路，它可以根據人類對現實世界家務的回饋繼續學習。信用：*arXiv*（2024）。DOI：10.48550/arxiv.2409.03166

亞利桑那州立大學（ASU）的研究人員最近開發了一種新的計算方法這可以讓使用者透過基於對話的互動不斷訓練機器人執行新任務。這種方法引入了紙發佈到arXiv預印本伺服器最初用於教導機器人操縱器如何成功準備冷三明治。

該論文的指導作者 Nakul Gopalan 告訴 Tech Xplore：“我們的目標是為在人們家中部署能夠學習烹飪冷餐的機器人做出貢獻。”「我們希望從使用者的角度出發，了解人們需要家用機器人的哪些行為。

“這種用戶視角使我們在與機器人交流時使用語言和對話。不幸的是，這些機器人可能不會知道所有事情，例如如何為你煮意大利麵。”

戈帕蘭和他的同事最近工作的主要目標是設計一種方法，使機器人能夠快速從人類代理那裡獲得以前未知的技能或行為。

在一個上一篇論文，在 AAAI 人工智慧會議上發表，該團隊專注於教導機器人透過基於對話的互動來完成視覺任務。他們的新研究建立在先前的努力的基礎上，引入了一種更全面的基於對話的機器人訓練方法。

「我們這項工作的範圍是透過允許用戶個性化他們的機器人來提高機器人的適用性，」論文的合著者 Weiwei Gu 告訴 Tech Xplore。「由於機器人需要為不同的用戶完成不同的任務，而完成這些任務需要不同的技能，製造商不可能預先訓練機器人擁有所有這些場景所需的所有技能。因此，機器人需要獲得這些技能來自用戶的技能和任務相關知識。

為了確保機器人能夠有效地從使用者那裡獲得新技能，團隊必須克服各種挑戰。首先，他們必須確保人類使用者在教導機器人時參與其中，並且機器人以非專家使用者可以理解的方式傳達任何疑問或要求額外資訊。

「其次，機器人需要從與用戶的幾次互動中獲取知識，因為用戶不能無限長時間地與機器人呆在一起，」顧說。“最後，儘管獲得了新知識，機器人也不應該忘記任何預先存在的知識。”

Gopalan、Gu 及其同事 Suresh Kondepudi 和 Lixiao Huang 著手共同解決持續學習的所有這些要求。他們提出的互動式持續學習系統透過三個不同的組件來處理這三個子任務。

「首先，基於大型語言模型 (LLM) 的對話系統向使用者提出問題，以獲取它可能沒有的任何知識或繼續與人們互動，」Gopalan 解釋道。「但是，機器人怎麼知道它不知道某些事情呢？

“為了解決這個問題，我們在機器人技能庫上訓練了第二個組件，並學習了它們與語言命令的映射。如果所請求的技能與機器人已經掌握的語言不接近，它會要求進行演示。”

該團隊新開發的系統還包括一種機制，讓機器人理解人類何時示範如何完成任務。如果提供的演示不夠，並且他們還沒有可靠地獲得技能，該模組允許機器人要求額外的技能。

「我們聯合使用技能表示和語言表示來模擬機器人的技能知識，」顧說。「當機器人需要執行一項技能時，它首先透過比較該技能的語言表示和機器人擁有的所有技能的語言表示來估計它是否具備直接執行該技能的能力。

“如果機器人有信心能夠執行該技能，則它會直接執行該技能。否則，它會要求用戶在機器人面前親自執行該技能來演示該技能。”

本質上，在機器人觀察到使用者完成特定任務後，團隊的系統會根據收集到的視覺資訊來確定它已經具備完成該任務所需的技能。

如果系統預測機器人還沒有獲得新技能，機器人會要求使用者使用遙控器描繪相關的機器人軌跡，這樣它就可以將這些軌跡添加到技能庫中，並在機器人中獨立完成相同的任務。

顧說：“我們將這些技能表示與法學碩士聯繫起來，讓機器人表達自己的疑慮，這樣即使是非專家用戶也能理解機器人的要求並提供相應的幫助。”

該系統的第二個模組是基於具有低秩自適應（LoRA）的預訓練和微調動作分塊變壓器（ACT）。最後，團隊開發了一個持續學習模組，允許機器人不斷在其技能庫中添加新技能。

「在機器人使用某些預先選擇的技能進行預訓練後，神經網路的大部分權重是固定的，只有低階適應引入的一小部分權重用於為機器人學習新技能」顧說。“我們發現我們的演算法能夠有效地學習新技能，而不會災難性地忘記任何預先存在的技能。”

研究人員在一系列實際測試中評估了他們提出的閉環技能學習系統，並將其應用於 Franka FR3 機器人操縱器。該機器人與八名人類用戶互動，並逐漸學會了處理一項簡單的日常任務，即製作三明治。

「我們可以透過與真實用戶對話來演示閉環技能培訓方法，這一事實本身就令人印象深刻，」Gopalan 說。“我們證明機器人可以製作由來到我們實驗室的用戶教授的三明治。”

研究人員收集到的初步結果非常有希望，因為僅經過五次人類演示後，ACT-LORA 組件就被發現能夠以 100% 的準確度獲得新的微調技能。此外，該模型在預訓練技能上保留了 74.75% 的準確率，優於其他類似模型。

顧說：“我們非常高興我們設計的機器人系統能夠與真實用戶一起運行，因為它展示了這項工作的真實機器人應用的光明前景。”“但是，我們確實找到了提高此類系統通訊效率的空間。”

儘管新開發的學習系統在團隊的實驗中取得了良好的效果，但它也存在一些限制。例如，該團隊發現它無法支援機器人和人類用戶之間的輪流，因此它依賴研究人員來闡明該輪到誰來處理手頭上的任務。

「雖然我們的發現令我們興奮，但我們也觀察到機器人需要時間來學習，這可能會讓用戶感到惱火，」戈帕蘭說。「我們仍然必須找到使這個過程更快的機制，這是我們下一步打算解決的核心機器學習問題。

“我們希望這項工作能夠進入人們的家中進行真正的實驗，這樣我們就知道在家庭護理情況下使用機器人存在的挑戰在哪裡。”

顧、戈帕蘭和他的同事開發的系統很快就會進一步改進，並在更廣泛的烹飪任務上進行測試。研究人員現在正在致力於解決他們觀察到的輪流問題，並擴大用戶可以教導機器人烹飪的餐點。他們還計劃進行更多的實驗，涉及更多的人類參與者。

「輪流問題是自然互動中一個有趣的問題，」顧補充道。「這個研究問題對互動式家庭機器人也有很強的應用意義。

“除了解決這個問題之外，我們還有興趣通過引入更多不同的任務並用來自現實世界人口統計的用戶對我們的系統進行實驗來擴大這項工作的規模。”

更多資訊：Weiwei Gu 等人，透過對話進行持續技能和任務學習，arXiv（2024）。DOI：10.48550/arxiv.2409.03166

期刊資訊： arXiv

引文:計算方法可以透過對話不斷地教導機器人新技能（2024 年，9 月 19 日）檢索日期：2024 年 9 月 19 日取自 https://techxplore.com/news/2024-09-approach-robots-skills-dialogue.html

本文檔受版權保護。除了出於私人學習或研究目的的任何公平交易外，不得未經書面許可，不得複製部分內容。所提供的內容僅供參考。

另請參閱其他語言版本: English | 简中 | 正體 | 日本語 | 한국인 | हिंदी | Español