Herts researchers take a step closer to developing robots able to "act on intuition"
ロボットが大学職員や学生とチェスをする。クレジット: ハートフォードシャー大学

ハートフォードシャー大学の研究者らは、ロボットがより直観的に機能できるようにする、つまり環境をガイドとして使用して意思決定できるようにする新しいアルゴリズムを開発しました。

原理は、アルゴリズムを通じて、エージェントは独自の目標を作成します。

このアルゴリズムは初めて、物理学に直接結び付けられた 1 つの概念の下でさまざまな目標設定アプローチを統合し、さらにこの計算を透明にして、他の人がそれを研究して採用できるようにします。

このアルゴリズムの原理は、この方法によりエージェントが「システムのダイナミクスのカオスの支配者」になるため、有名なカオス理論に関連しています。

研究は、出版された日記でPRX ライフ。ハーツの研究者らは、明確な報酬信号がない場合でも、人間や動物の意思決定プロセスを模倣するロボットの「動機付けモデル」を研究しました。

研究では次のように紹介されています(AI) 直接の指示や人間の入力なしにロボットが将来の行動を決定する方法を計算する式。

コンピューターサイエンス教授で主任著者のダニエル・ポラーニ氏は、「応用的な意味では、これが意味することは、たとえば、ロボットに命令されなくても勝手にオブジェクトを操作したり遊んだりできるようにすることです。

「より「自然な」行動や相互作用を促進することで、ロボットが人間や他のロボットと相互作用する方法を学習する方法を強化できる可能性があります。

「これには、地下や惑星間の場所など、人間のオペレーターが到達できない状況に置かれた半自律ロボットの生存行動など、さらなる用途があります。」

人間や動物では、ある理論では、食べ物などの特定の学習報酬ではなく、その存在とその環境との相互作用によってのみ行動が駆動される「内発的動機」の存在が想定されています。この論文は、その「内発的動機づけ」理論をロボットエージェントが使用できる理論に変換することに成功しました。

ポラーニ教授はさらに、「人間や動物が経験がなくても新しい問題を解決できるように支援するのと同様のメカニズムをロボットに実装できるため、この研究はエキサイティングだ」と付け加えた。

「将来的には、この研究を基にして、より直感的なプロセスを備えた、より人間に似たロボットを開発できると期待しています。これにより、私たちと同様の意思決定プロセスを備えた、より洗練されたロボットの大きなチャンスが開かれます。」

この論文の基礎となっている「エンパワーメント最大化」と呼ばれる理論は、ハーツで長年開発されてきました。これは、将来の結果の範囲を広げることで、ロボットには長期的にもより良い選択肢が与えられることを示唆しています。重要なのは、この方法は従来の報酬システム (食べ物のシグナルなど) に取って代わり、したがっておそらく不要になることです。

エンパワーメントの最大化は期待されていますが、まだ完全には理解されておらず、広く適用されていません。ほとんどの研究はかつてシミュレーションに依存していましたが、必要な情報は綿密に計算されていました。そして理論は依然として挑戦的です。

しかし、この最新の革新的な研究は、エンパワーメントに基づく動機が生物と同様の行動を生み出し、潜在的により内発的に動機づけられたロボットにつながる可能性がある理由を説明することを目的としています。さらに、これらの動機を計算するための大幅に改善された方法も提供します。

ポラーニ教授は、次のステップは、この画期的なアルゴリズムを使用してロボットが世界についてさらに発見できるようにし、直接学習を開発し、現実世界のシナリオでロボットの価値を高める新しいスキルを特定して磨くことだと述べています。

詳細情報:Stas Tiomkin 他、動的制御システムにおける内発的動機付け、PRX ライフ(2024年)。DOI: 10.1103/PRXLife.2.033009

引用:アルゴリズムによりロボットは「直感に基づいて行動」できるようになる (2024 年 9 月 11 日)2024 年 9 月 11 日に取得https://techxplore.com/news/2024-09-algorithm-robots-closer-intuition.html より

この文書は著作権の対象です。個人的な研究や研究を目的とした公正な取引を除き、書面による許可なく一部を複製することができます。コンテンツは情報提供のみを目的として提供されています。