Herts researchers take a step closer to developing robots able to "act on intuition"
機器人與大學教職員和學生下棋。圖片來源:赫特福德郡大學

赫特福德郡大學的研究人員開發了一種新演算法,可以讓機器人更直觀地發揮作用,也就是說,利用環境的指導做出決策。

其原理是,透過演算法,代理創建自己的目標。

該演算法第一次將不同的目標設定方法統一在一個與物理學直接相關的概念下,並且它還使計算透明,以便其他人可以研究和採用它。

該演算法的原理與著名的混沌理論有關,因為該方法使智能體「成為系統動力學混沌的掌握者」。

該研究已發表在日記中PRX 壽命。赫茲研究人員探索了機器人“動機模型”,即使在沒有明確獎勵訊號的情況下,它也能模仿人類和動物的決策過程。

研究介紹(AI) 公式計算機器人無需直接指令或人工輸入即可決定未來行動的方法。

電腦科學教授兼資深作者 Daniel Polani 解釋:「從應用意義上來說,這可能意味著讓機器人在沒有被告知的情況下自行玩耍和操縱物體。

「它可以透過鼓勵更『自然』的行為和互動,增強機器人學習與人類和其他機器人互動的方式。

「這還有進一步的應用,例如半自主機器人放置在人類操作員無法到達的地方(例如地下或星際位置)的生存行為。”

在人類和動物中,一種理論假設存在一種“內在動機”,即行為僅由生物與其環境之間的相互作用驅動,而不是由特定的習得獎勵(例如食物)驅動。本文成功地將「內在動機」理論轉化為可供機器人代理使用的理論。

波拉尼教授補充說:「這項工作令人興奮,因為我們現在可以在機器人中實現一種機制,類似於幫助人類和動物在沒有經驗的情況下解決新問題的機制。

“我們希望在這項工作的基礎上,未來能夠開發出更多具有更直觀流程的類人機器人。這為具有與我們類似決策流程的更複雜的機器人提供了巨大的機會。”

本文所依據的理論稱為“賦權最大化”,已在赫茲發展多年。它表明,透過增加未來結果的範圍,機器人在更長的未來也將擁有更好的選擇。重要的是,這種方法取代並因此可能消除傳統的獎勵系統(例如食物訊號)。

雖然賦權最大化已顯示出希望,但尚未充分理解或廣泛應用。大多數研究過去依賴模擬,同時仔細計算必要的信息該理論仍然具有挑戰性。

然而,這項最新的創新研究旨在解釋為什麼基於賦權的動機可以創造與生物體類似的行為,從而有可能產生更具內在動機的機器人;它還提供了一種顯著改進的方法來計算這些動機。

波拉尼教授表示,下一步是利用這項突破性演算法讓機器人更了解世界,開發直接學習能力,識別和磨練新技能,從而在現實世界場景中發揮其價值。

更多資訊:Stas Tiomkin 等人,動態控制系統的內在動機,PRX 壽命(2024)。DOI:10.1103/PRXLife.2.033009

引文:演算法讓機器人離「憑直覺行動」又更近了一步(2024 年 9 月 11 日)檢索日期:2024 年 9 月 11 日來自 https://techxplore.com/news/2024-09-algorithm-robots-closer-intuition.html

本文檔受版權保護。除了出於私人學習或研究目的的任何公平交易外,不得未經書面許可,不得複製部分內容。所提供的內容僅供參考。