An approach to continually teach robots new skills via dialogues
ユーザー調査でのフレームワークの実行例では、ユーザーがロボットにサンドイッチを作るように依頼しましたが、ロボットはチーズの切り方を知らないため、ユーザーに言語の助けを求め、ユーザーがこのスキルを教えた後、ロボットはこれを保存します。このスキルを使えば、同様のサンドイッチを単独で作ることができます。この取り組みは、現実世界の雑用に対する人間のフィードバックを受けて学習を続けることができるロボットへの道です。クレジット:arXiv(2024年)。DOI: 10.48550/arxiv.2409.03166

ロボット研究者は過去数十年にわたってますます洗練されたロボット システムを導入してきましたが、これまでに導入されたソリューションのほとんどは、特定のタスクに取り組むために事前にプログラムされ、訓練されています。ロボットと対話しながら新しいスキルを継続的に教える能力は非常に有益であり、ロボットの普及を促進する可能性があります。

アリゾナ州立大学 (ASU) の研究者は最近、これにより、ユーザーは対話ベースの対話を通じて新しいタスクについてロボットを継続的に訓練できるようになります。このアプローチは、に投稿されましたarXivプレプリント サーバーは、当初、冷たいサンドイッチを上手に準備する方法をロボット マニピュレーターに教えるために使用されました。

「私たちの目標は、冷たい食事の作り方を学習できるロボットの家庭への導入に貢献することです」と論文の監修著者であるナクル・ゴパラン氏はTech Xploreに語った。「私たちはこれをユーザーの観点から望んでおり、人々が家庭用ロボットにどのような動作を必要としているかを理解しています。

「このユーザーの視点により、私たちはロボットとコミュニケーションするときに言語と対話を使用するようになりました。残念ながら、これらのロボットは、パスタの作り方など、すべてを知っているわけではないかもしれません。」

ゴパラン氏と彼の同僚らによる最近の研究の主な目的は、ロボットがこれまで知られていなかったスキルや行動を人間のエージェントから迅速に習得できるようにする方法を考案することであった。

以前の論文人工知能に関するAAAIカンファレンスで発表されたこの論文では、チームはロボットに対話ベースのインタラクションを通じて視覚タスクを完了するよう教えることに焦点を当てた。彼らの新しい研究はこの以前の取り組みに基づいており、対話ベースのロボット トレーニングのためのより包括的な方法を導入しています。

「私たちのこの研究の範囲は、ユーザーが自分のロボットをカスタマイズできるようにすることで、ロボットの適用性を向上させることです」と論文の共著者である Weiwei Gu 氏は Tech Xplore に語った。「ロボットはユーザーごとに異なるタスクを完了する必要があり、これらのタスクを完了するには異なるスキルが必要となるため、メーカーがこれらすべてのシナリオに必要なすべてのスキルをロボットに事前にトレーニングすることは不可能です。したがって、ロボットはこれらのスキルを取得する必要があります。ユーザーからのスキルとタスク関連の知識。」

ロボットがユーザーから新しいスキルを効果的に習得できるようにするために、チームはさまざまな課題を克服する必要がありました。まず、人間のユーザーがロボットを教える際に積極的に参加し、ロボットが疑問を伝えたり、追加情報を要求したりする際に、専門家以外のユーザーでも理解できるようにする必要がありました。

「第二に、ユーザーは無限にロボットを使い続けることはできないため、ロボットはユーザーとのほんの数回のやり取りから知識を取得する必要がある」とGu氏は述べた。「最後に、ロボットは新しい知識を取得しても、既存の知識を忘れてはなりません。」

Gopalan 氏、Gu 氏、およびその同僚の Suresh Kondepudi 氏、Lixiao Huang 氏は、継続的な学習のこれらすべての要件に共同で対処することに取り組みました。彼らが提案したインタラクティブな継続学習システムは、3 つの異なるコンポーネントを通じてこれら 3 つのサブタスクに取り組みます。

An approach to continually teach robots new skills via dialogues
ユーザーがアームを握ってロボットにスキルを教えます。クレジット: Gu et al.

「まず、大規模言語モデル (LLM) ベースの対話システムは、ユーザーが持っていない知識を取得したり、人々との対話を継続したりするためにユーザーに質問します」と Gopalan 氏は説明しました。「しかし、ロボットは自分が何かを知らないことをどのようにして知るのでしょうか?

「この問題に対処するために、ロボット スキルのライブラリで 2 番目のコンポーネントをトレーニングし、言語コマンドへのマッピングを学習しました。要求されたスキルがロボットがすでに知っている言語に近くない場合、ロボットはデモンストレーションを要求します。」

チームが新たに開発したシステムには、人間がタスクの完了方法をデモンストレーションしているときをロボットが理解できるようにするメカニズムも含まれている。提供されたデモンストレーションが不十分で、スキルをまだ確実に習得していない場合、このモジュールを使用すると、ロボットは追加のスキルを要求できます。

「私たちはスキル表現と言語表現を共同で使用して、スキルに関するロボットの知識をモデル化しました」と Gu 氏は述べています。「ロボットがスキルを実行する必要がある場合、ロボットはまずスキルの言語表現とロボットが持つすべてのスキルの言語表現を比較することによって、そのスキルを直接実行する能力があるかどうかを推定します。

「ロボットは、自信を持ってスキルを実行できる場合は、直接スキルを実行します。そうでない場合は、ロボットの前でユーザー自身がスキルを実行することで、ユーザーにスキルをデモンストレーションするよう求めます。」

基本的に、ユーザーが特定のタスクを完了するのをロボットが観察した後、チームのシステムは、収集した視覚情報に基づいて、ロボットがそのタスクを完了するために必要なスキルをすでに持っていると判断します。

ロボットがまだ新しいスキルを習得していないとシステムが予測した場合、ロボットはユーザーに、リモコンを使用して関連するロボットの軌道を描くよう求めます。これにより、ロボットは、これらをスキル ライブラリに追加し、同じタスクを独立して実行できます。未来。

「私たちはこれらのスキルの表現を LLM と結び付けて、ロボットが疑問を表現できるようにします。これにより、専門家でないユーザーでもロボットの要件を理解し、それに応じて支援できるようになります」と Gu 氏は述べています。

システムの 2 番目のモジュールは、低ランク適応 (LoRA) を備えた事前トレーニングおよび微調整されたアクション チャンキング トランスフォーマー (ACT) に基づいています。最後に、チームはロボットがスキル ライブラリに新しいスキルを継続的に追加できるようにする継続学習モジュールを開発しました。

「ロボットが事前に選択された特定のスキルで事前トレーニングされた後、ニューラル ネットワークの重みの大部分が固定され、低ランク適応によって導入された重みのほんの一部だけがロボットの新しいスキルを学習するために使用されます。」とグーさんは言いました。「私たちのアルゴリズムは、既存のスキルを壊滅的に忘れることなく、新しいスキルを効率的に学習できることがわかりました。」

研究者らは、提案した閉ループスキル学習システムを一連の実世界テストで評価し、それを Franka FR3 ロボットマニピュレーターに適用しました。このロボットは 8 人の人間ユーザーと対話し、サンドイッチを作るという簡単な日常作業に取り組むことを徐々に学びました。

An approach to continually teach robots new skills via dialogues
ロボットは一連の作業を完了し、サンドイッチを作りました。クレジット: Gu et al.

「実際のユーザーと対話しながら、クローズドループのスキル トレーニング アプローチを実証できるという事実は、それ自体が印象的です」と Gopalan 氏は述べています。「私たちの研究室に来たユーザーに教えてもらったサンドイッチをロボットが作れることを証明しました。」

研究者らが収集した最初の結果は、ACT-LORA コンポーネントが人間によるわずか 5 回のデモン​​ストレーションで 100% の精度で新しい微調整されたスキルを獲得できることが判明したため、非常に有望なものでした。さらに、このモデルは事前トレーニングされたスキルに関して 74.75% の精度を維持し、他の同様のモデルを上回りました。

「私たちが設計したロボット システムが実際のユーザーで機能することができたことに非常に興奮しています。これは、この作品における実際のロボット アプリケーションの有望な将来を示しているからです。」と Gu 氏は述べています。「しかし、このようなシステムのコミュニケーションの有効性を改善する余地はあります。」

新しく開発された学習システムはチームの実験で良好な結果をもたらしましたが、いくつかの制限もあります。たとえば、チームはロボットと人間のユーザー間の交代をサポートできないことが判明したため、目の前のタスクに取り組む順番を研究者に明らかにすることに依存しました。

「私たちの発見は私たちにとって刺激的なものでしたが、ロボットの学習には時間がかかり、ユーザーにとってはイライラする可能性があることも観察しました」とゴパラン氏は語った。「このプロセスを高速化するメカニズムをまだ見つける必要があり、これは私たちが次に解決する予定の機械学習の中核問題です。

「私たちは、この作品を実際の実験のために人々の家庭に導入したいと考えています。そうすることで、在宅介護の状況でロボットを使用する際の課題がどこにあるのかを知ることができます。」

Gu 氏、Gopalan 氏、および彼の同僚によって開発されたシステムは、間もなくさらに改良され、より広範囲の調理作業でテストされる可能性があります。研究者らは現在、観察した交代制の問題を解決し、ユーザーがロボットに調理を教えることができる食事のセットを拡張することに取り組んでいる。彼らはまた、より多くの人間の参加者を含むさらなる実験を実施することも計画している。

「交代の問題は、自然な相互作用における興味深い問題です」と Gu 氏は付け加えました。「この研究課題は、対話型家庭用ロボットへの応用にも大きな影響を及ぼします。

「この問題に対処することに加えて、私たちはより多くの異なるタスクを導入し、現実世界の人口統計からのユーザーを対象にシステムを実験することで、この作業の規模を拡大することに興味があります。」

詳細情報:Weiwei Gu 他、対話による継続的なスキルとタスクの学習、arXiv(2024年)。DOI: 10.48550/arxiv.2409.03166

雑誌情報: arXiv

© 2024 サイエンス X ネットワーク

引用:コンピュータによるアプローチは対話を通じてロボットに新しいスキルを継続的に教えることができる (2024年9月19日)2024 年 9 月 19 日に取得https://techxplore.com/news/2024-09-approach-robots-skills-dialogue.html より

この文書は著作権の対象です。個人的な研究や研究を目的とした公正な取引を除き、書面による許可なく一部を複製することができます。コンテンツは情報提供のみを目的として提供されています。