Precision home robots learn with real-to-sim-to-real
MIT の研究者、マルセル・トルネ・ヴィラセヴィル (左) とプルキット・アグラワルによって開発された RialTo は、「デジタル ツイン」の助けを借りて、ロボットがシミュレートされた環境でスキルを磨く場合よりもはるかに速く訓練できるようにすることができます。現実世界。クレジット: Mike Grimmett/MIT CSAIL

多くの自動化の希望リストの上位にあるのは、特に時間のかかるタスク、つまり雑務です。

多くのロボット工学者のムーンショットは、あらゆる場所、あらゆる条件下で機能する「ジェネラリスト」ポリシー (ロボットの動作を導くルールと戦略) を機械が学習できるように、適切なハードウェアとソフトウェアの組み合わせを作り上げています。

しかし、現実的には、家庭用ロボットを持っている場合、それが隣人のために働いているかどうかはおそらくあまり気にしないでしょう。MIT コンピューター サイエンスおよび人工知能研究所 (CSAIL) の研究者らは、これを念頭に置いて、非常に特殊な環境向けに堅牢なロボット ポリシーを簡単にトレーニングするソリューションを見つけることを試みることにしました。

「私たちは、単一の環境内で、外乱、注意散漫、さまざまな照明条件、物体の姿勢の変化の下で、ロボットが非常に優れたパフォーマンスを発揮することを目指しています」と、Improbable AI ラボの MIT CSAIL 研究助手であり、この論文の主著者である Marcel Torne Villasevil 氏は述べています。プレプリントサーバーに掲載されている作品についてarXiv

「私たちは、コンピューター ビジョンの最新の進歩を利用して、その場でデジタル ツインを作成する方法を提案します。携帯電話だけで、誰もが現実世界のデジタル レプリカをキャプチャでき、ロボットは現実世界よりもはるかに高速にシミュレートされた環境でトレーニングできます。GPU 並列化のおかげで、私たちのアプローチは、いくつかの実世界のデモンストレーションを利用してトレーニング プロセスを活性化することで、広範な報酬エンジニアリングの必要性を排除します。」

ロボットを家に持ち帰る

もちろん、RialTo は、単に電話と (ドーン!) ホーム ボットを振るだけの単純なサービスよりも少し複雑です。まず、デバイスを使用して、NeRFStudio、ARCode、Polycam などのツールを使用してターゲット環境をスキャンします。シーンが再構築されたら、ユーザーはそれを RialTo のインターフェイスにアップロードして、詳細な調整を行ったり、ロボットに必要なジョイントを追加したりすることができます。

洗練されたシーンがエクスポートされ、シミュレーターに取り込まれます。ここでの目的は、カウンターにあるカップをつかむためのポリシーなど、現実世界の行動と観察に基づいたポリシーを開発することです。これらの現実世界のデモンストレーションはシミュレーションで再現され、強化学習に貴重なデータを提供します。

「これは、シミュレーションと現実世界の両方でうまく機能する強力なポリシーを作成するのに役立ちます。強化学習を使用した強化されたアルゴリズムがこのプロセスをガイドし、シミュレーターの外部で適用されたときにポリシーが確実に効果的になるようにします」と Torne 氏は言います。

テストの結果、RialTo は、管理された実験室環境であっても、より予測不可能な現実世界の環境であっても、さまざまなタスクに対して強力なポリシーを作成し、同じデモンストレーション数で模倣学習よりも 67% 改善したことが示されました。タスクには、トースターを開ける、本を棚に置く、皿をラックに置く、マグカップを棚に置く、引き出しを開ける、キャビネットを開けるなどが含まれます。

研究者らは、タスクごとに、オブジェクトのポーズのランダム化、視覚的な気を散らす要素の追加、タスク実行中の物理的撹乱の適用という 3 つの難易度を段階的に上げてシステムのパフォーマンスをテストしました。実世界のデータと組み合わせると、このシステムは、特に視覚的な混乱や物理的な混乱が多い状況において、従来の模倣学習方法よりも優れたパフォーマンスを発揮しました。

リアルからシムからリアルへの高精度ホーム ロボティクス。クレジット: MIT CSAIL

「これらの実験は、特定の環境に対する堅牢性を重視する場合、さまざまな環境で大規模なデータ収集による堅牢性を実現しようとするのではなく、デジタル ツインを活用することが最善のアイデアであることを示しています」と Improbable AI ディレクターのプルキット アグラワル氏は述べています。MIT 電気工学およびコンピュータ サイエンス (EECS) 研究室の准教授、MIT CSAIL の主任研究者、およびこの研究の上級著者。

制限事項に関して言えば、RialTo が完全にトレーニングされるまでには現在 3 日かかります。これをスピードアップするために、チームは基礎となるアルゴリズムを改善し、基礎モデルを使用することに言及しています。シミュレーションでのトレーニングにも限界があり、現時点では、簡単にシミュレーションから現実への変換を行ったり、変形可能なオブジェクトや液体をシミュレートしたりすることは困難です。

次のレベル

さて、RialTo の旅の次は何でしょうか?科学者らはこれまでの取り組みを基に、新しい環境に対するモデルの適応性を向上させながら、さまざまな外乱に対する堅牢性を維持することに取り組んでいます。

「私たちの次の取り組みは、事前トレーニングされたモデルを使用し、学習プロセスを加速し、人的入力を最小限に抑え、より広範な汎化機能を実現するこのアプローチです」と Torne 氏は言います。

「私たちは、ロボットが環境を自律的にスキャンし、シミュレーションで特定のタスクを解決する方法を学習できる、『オンザフライ』ロボット プログラミングのコンセプトに非常に熱心に取り組んでいます。ただし、現在の方法には、いくつかの初期設定が必要であるなどの制限があります。人間によるデモンストレーションと、これらのポリシーのトレーニングにかかる​​膨大な計算時間 (最長 3 日)。これは、ロボットの「オンザフライ」学習と展開の実現に向けた重要な一歩であると考えています」と Torne 氏は言います。

「このアプローチは、ロボットがあらゆるシナリオをカバーする既存のポリシーを必要としない未来に私たちを近づけます。その代わりに、ロボットは現実世界での広範な対話なしで新しいタスクを迅速に学習できるようになります。私の見解では、この進歩により、ロボットの実用化が促進される可能性があります」普遍的で包括的な政策だけに依存するよりも、はるかに早くロボット工学が実現するでしょう。」

「現実世界にロボットを導入するために、研究者は従来、専門家のデータからの模倣学習などの手法に依存してきましたが、これには費用がかかる可能性があります。安全ではない可能性があります」と、この論文には関与していないワシントン大学のコンピューターサイエンス博士課程の学生、ゾーイ・チェンは言う。

「RialTo は、その新しいリアルからシムからリアルへのパイプラインにより、現実世界の RL (ロボット学習) の安全性制約とデータ駆動型学習方法の効率的なデータ制約の両方に直接対処します。

「この新しいパイプラインは、現実世界への展開前のシミュレーションでの安全かつ堅牢なトレーニングを保証するだけでなく、データ収集の効率も大幅に向上します。RialTo は大幅にスケールアップする可能性があります。」学習し、ロボットが複雑な現実世界のシナリオにはるかに効果的に適応できるようになります。」

「シミュレーションは、政策学習用に安価でおそらく無限のデータを提供することにより、実際のロボットで優れた機能を示しました」とコンピュータサイエンス博士のマリウス・メメル氏は付け加えた。この研究には関与していないワシントン大学の学生。

「しかし、これらの方法はいくつかの特定のシナリオに限定されており、対応するシミュレーションの構築には費用と労力がかかります。RialTo は、現実世界の環境を数時間ではなく数分で再構築する使いやすいツールを提供します。

「さらに、ポリシー学習中に収集されたデモンストレーションを広範囲に活用し、オペレーターの負担を最小限に抑え、sim2real ギャップを削減します。RialTo は、オブジェクトの姿勢や外乱に対する堅牢性を実証し、大規模なシミュレーターの構築やデータ収集を必要とせずに、信じられないほど現実世界のパフォーマンスを示します。」

詳細情報:Marcel Torne 他、シミュレーションによる現実の調和: ロバストな操作のための現実からシミュレーションへのアプローチ、arXiv(2024年)。DOI: 10.48550/arxiv.2403.03949

雑誌情報: arXiv

この記事は MIT ニュースのご厚意により再掲載されています (web.mit.edu/ニュースオフィス/) は、MIT の研究、イノベーション、教育に関するニュースを扱う人気のサイトです。

引用:研究者らは、スキャンされた家庭環境のシミュレーションでロボットを訓練できる新しいアプローチを導入 (2024 年 8 月 1 日)2024 年 8 月 1 日に取得https://techxplore.com/news/2024-08-approach-robots-simulations-scanned-home.html より

この文書は著作権の対象です。個人的な研究や研究を目的とした公正な取引を除き、書面による許可なく一部を複製することができます。コンテンツは情報提供のみを目的として提供されています。