Adding audio data when training robots helps them do a better job
拭き取り評価。上: さまざまなテスト シナリオ。下: 典型的な失敗ケースとタスクの成功率。[視覚のみ] ポリシーでは、適切な接触を維持できないことがよくあります (例: 広範囲に押し込みすぎるか、フロートするかのいずれか)。[MLP fusion] ポリシーは、描画を完全に消去できず、早期に終了することがよくあります。クレジット:arXiv(2024年)。DOI: 10.48550/arxiv.2406.19464

スタンフォード大学とトヨタ研究所のロボット工学者からなる共同チームは、ロボットを訓練する際に視覚データに音声データを追加すると学習スキルの向上に役立つことを発見した。チームが投稿したのは、研究arXivプレプリントサーバー。

研究者らは、AIベースのロボットを使って行われる事実上すべてのトレーニングでは、関連する音声を無視して大量の視覚情報にさらす必要があると指摘した。彼らは、ロボットにマイクを追加して、動作中に何かがどのように聞こえるかに関するデータを収集できるようにすれば、タスクをよりよく学習できるのではないかと考えました。

たとえば、シリアルの箱を開けてボウルに詰める方法を学ぶことになっていますが、箱を開ける音やシリアルがボウルに流れ落ちる音を聞くと役立つかもしれません。それを解明するために、チームは 4 つのロボット学習実験を設計し、実行しました。

最初の実験では、ヘラを使ってフライパンの中でベーグルをひっくり返すようにロボットに教えることが含まれていました。2 つ目は、消しゴムを使ってホワイト ボード上の画像を消すようにロボットに教えることです。3 つ目は、カップに入ったサイコロを別のカップに注ぐというもので、4 つ目は、利用可能な 3 つのサンプルから正しいサイズのテープを選択し、それを使ってワイヤーをプラスチック ストリップにテープで留めるというものでした。

すべての実験には、つかみ爪を備えた同じロボットが使用されました。それらはすべて、ビデオのみを使用する場合とビデオとオーディオを使用する場合の 2 つの方法で行われました。研究チームはまた、テーブルの高さ、テープの種類、ホワイトボード上の画像の種類など、指導とパフォーマンスの要素を変更しました。

すべての実験を実行した後、研究者らはロボットがどれだけ早く簡単にタスクを学習して実行できるか、またその精度を判断することで結果を比較した。音声を追加すると、一部のタスクでは速度と精度が大幅に向上しましたが、その他のタスクでは改善されなかったことがわかりました。

たとえば、サイコロを注ぐタスクに音声を追加すると、サイコロがあるかどうかを理解するロボットの能力が劇的に向上しました。サイコロまた、独特な音が発生するため、ロボットが消しゴムに適切な量の圧力をかけているかどうかを理解するのにも役立ちました。一方、音を追加しても、ベーグルがうまく回転したかどうか、またはすべての画像がホワイト ボードから正常に削除されたかどうかを判断するのにはあまり役に立ちませんでした。

研究チームは、自分たちの研究結果から、音声を追加することが重要であることを示していると結論付けています。AI ロボット用の材料は、一部のアプリケーションではより良い結果を提供する可能性があります。

詳細情報:Zeyi Liu 他、ManiWAV: 野生のオーディオビジュアル データからのロボット操作の学習、arXiv(2024年)。DOI: 10.48550/arxiv.2406.19464

プロジェクトページ:mani-wav.github.io/

雑誌情報: arXiv

© 2024 サイエンス X ネットワーク

引用:ロボットのトレーニング時に音声データを追加すると、ロボットの作業が向上します (2024 年 7 月 5 日)2024 年 7 月 5 日に取得https://techxplore.com/news/2024-07-adding-audio-robots-job.html より

この文書は著作権の対象です。個人的な研究や研究を目的とした公正な取引を除き、書面による許可なく一部を複製することができます。コンテンツは情報提供のみを目的として提供されています。