A new data augmentation algorithm that could facilitate the transfer of skills across robots
ロボット画像が与えられると、RoVi-Aug は最先端の拡散モデルを使用してデータを拡張し、さまざまなロボットと視点による合成画像を生成します。拡張データセットでトレーニングされたポリシーは、ターゲット ロボットにゼロショットで展開することも、さらに微調整して展開することもでき、カメラ ポーズの変更に対する堅牢性を示します。クレジット: チェン他

近年、ロボット工学者は、家事の完了から荷物の配達、または輪郭を描かれた環境での目標物の検索に至るまで、現実世界のさまざまなタスクに取り組むように設計された幅広いシステムを開発してきました。

この分野の主な目的は、異なる身体や特性を持つロボット間で特定のスキルを確実に伝達できるアルゴリズムを開発することであり、これはロボットに新しいタスクを迅速に訓練させ、ロボットの能力を拡張するのに役立ちます。

カリフォルニア大学バークレー校の研究者らは、ロボット データを強化し、さまざまなロボット間でのスキルの伝達を容易にするように設計された新しい計算フレームワークである RoVi-Aug を開発しました。彼らが提案したアプローチは、に事前公開されたarXiv2024 年のロボット学習会議で発表される予定です (CoRL)、最先端の生成モデルを利用して、また、個別のロボットに対してさまざまなカメラビューを使用して、合成された視覚的なタスクのデモンストレーションを作成します。

「最新の機械学習システム、特に生成モデルの成功は、印象的な一般化可能性を示しており、ロボット工学研究者はロボット工学でも同様の一般化可能性を達成する方法を探求する意欲を持っています。」ローレンス チェン (博士候補者、AUTOLab、EECS & IEOR、BAIR、カリフォルニア大学バークレー校)) と Chenfeng Xu (Ph.D.候補者、Pallas Lab & MSC Lab、EECS & ME、BAIR、UC Berkeley) は Tech Xplore に語った。

「私たちは今年の初めから、視点を超えた問題とロボットを超えた一般化の問題を調査してきました。」

以前の研究を行った際、Chen、Xu、および彼らの同僚は、さまざまなロボットにわたる学習の一般化に対する課題のいくつかを特定しました。具体的には、ロボット データセットに含まれるシーンが不均一に分散している場合、たとえば、特定のロボットのビジュアルやカメラ アングルが他よりも多く含まれている場合、異なるロボットに同じスキルを教える効果が低下することがわかりました。

興味深いことに、研究者らは、最も確立されたデータセットも含め、多くの既存のロボット トレーニング データセットがアンバランスであることを発見しました。たとえば、Open-X 実施形態 (OXE) であっても、データセット「データセット内のこのようなバイアスがロボットの方針を決める

モデル「この問題を軽減するために、2024 年 2 月に、テスト時適応アルゴリズムを提案しました。

ミラージュこれは、「クロスペイント」を使用して、目に見えないターゲット ロボットをトレーニング中に見られるソース ロボットに変換し、テスト時にソース ロボットがタスクを実行しているかのような錯覚を作り出します。」研究者らが以前の論文で導入したアルゴリズムであるミラージュは、目に見えないターゲットロボットへのスキルのゼロショット伝達を達成することが判明した。

それにもかかわらず、このモデルにはさまざまな制限があることが判明しました。

まず、Mirage がうまく動作するには、正確なロボット モデルとカメラ マトリックスが必要です。さらに、このアルゴリズムはロボット ポリシーの微調整をサポートしておらず、画像深度の再投影でエラーが発生する傾向があるため、カメラ ポーズの変化がほとんどない画像の処理に限定されます。

「私たちの最新の研究では、RoVi-Aug と呼ばれる代替アルゴリズムを紹介しています」と Chen 氏と Xu 氏は述べています。「このアルゴリズムの目的は、厳しい前提条件を備えたテスト時のクロスペイント アプローチに依存するのではなく、トレーニング中のポリシーの堅牢性と一般化性を強化し、さまざまなロボットのビジュアルやカメラのポーズの処理に重点を置くことで、ミラージュの制限を克服することです。既知のカメラのポーズとロボットの URDF (統一ロボット記述形式)。

研究者らによって導入された新しいロボット データ拡張フレームワークである RoVi-Aug は、最先端の拡散モデルに基づいています。これらは、ロボットの軌道の画像を拡張し、タスクを完了するさまざまなロボットをさまざまな視点から見た合成画像を生成できる計算モデルです。

A new data augmentation algorithm that could facilitate the transfer of skills across robots
RoVi-Aug パイプラインの概要。入力ロボット イメージが与えられると、まず微調整された SAM モデルを使用してロボットをセグメント化し、次に ControlNet を使用してロボットを別のロボットに変換します。合成ロボットを背景に貼り付けた後、ZeroNVS を使用して新しいビューを生成します。クレジット: チェン他

研究者らはフレームワークを使用して、幅広い合成ロボットのデモンストレーションを含むデータセットをコンパイルし、このデータセットに基づいてロボット ポリシーをトレーニングしました。これにより、デモンストレーションに含まれるタスクをこれまで経験したことのない新しいロボットにスキルを伝達できるようになります。これはゼロショット学習として知られています。

特に、ロボット ポリシーを微調整して、特定のタスクでより優れたパフォーマンスを達成することもできます。さらに、チームの以前の論文で紹介されたミラージュ モデルとは対照的に、彼らの新しいアルゴリズムはカメラ アングルの大幅な変更をサポートできます。

「Mirage のようなテスト時の適応方法とは異なり、RoVi-Aug は展開中に追加の処理を必要とせず、カメラの角度を事前に知ることに依存せず、ポリシーの微調整をサポートします」と Chen 氏と Xu 氏は説明しました。「また、モデルがデータセット全体のロボットとスキルの全範囲を学習することを積極的に奨励することで、マルチロボット、マルチタスクのデータセットでの従来の共同トレーニングを超えています。」

RoVi-Aug モデルには、ロボット拡張 (Ro-Aug) モジュールと視点拡張 (Vi-Aug) モジュールという 2 つの異なるコンポーネントがあります。これらのコンポーネントの 1 つ目は、さまざまなロボット システムを特徴とするデモンストレーション データを合成するように設計されており、2 つ目はさまざまな角度から見たデモンストレーションを作成できます。

「Ro-Aug には 2 つの重要な機能があります。ロボットをセグメント化するための微調整された SAM モデルと、元のロボットを別のロボットに置き換えるための微調整された ControlNet です。」と Chen 氏と Xu 氏は述べました。「一方、Vi-Aug は、最先端の新しいビュー合成モデルである ZeroNVS を活用して、シーンの新しい視点を生成し、モデルをさまざまなカメラの視点に適応できるようにしています。」

研究の一環として、研究者らはモデルを使用して拡張ロボット データセットを作成し、トレーニング ポリシーとさまざまなロボット間でのスキルの伝達に対するこのデータセットの有効性をテストしました。彼らの最初の発見は、Rovi-Aug の可能性を強調するものであり、このアルゴリズムにより、さまざまなロボットやカメラの設定にわたって一般化するポリシーのトレーニングが可能になることがわかりました。

「その重要な革新は、画像間の生成や新しいビューの合成などの生成モデルを、クロスエンティティのロボット学習の課題に適用することにあります」とChenとXuは説明しました。

「これまでの研究では、気を散らすオブジェクトや背景に直面した場合のポリシーの堅牢性を向上させるために生成拡張を使用していましたが、RoVi-Aug は、このアプローチがどのように異なるロボット間のスキル伝達を促進できるかを初めて示しました。」

Chen と Xu によるこの最近の研究は、ロボット研究者がシステムのスキルセットを簡単に拡張できるようにすることで、ロボットの進歩に貢献する可能性があります。将来的には、他のチームが異なるロボット間でスキルを伝達したり、より効果的な汎用ロボットポリシーを開発したりするために使用される可能性があります。

「たとえば、研究者が多大な労力を費やしてデータを収集し、Franka ロボットでタスクを実行するためのポリシーをトレーニングしたのに、手元には UR5 ロボットしかないというシナリオを想像してみてください。」と Chen 氏と Xu 氏は述べました。

「RoVi-Aug を使用すると、追加のトレーニングなしで Franka データを再利用し、UR5 ロボットにポリシーを展開できます。ロボット ポリシーは多くの場合カメラ視点の変更に敏感であり、異なるロボット間で同じカメラ アングルを設定するのは困難であるため、これは特に便利です。RoVi-Aug を使用すると、そのような正確なセットアップの必要がなくなります。」

現実世界で大量のロボットのデモンストレーションを収集するには非常に費用と時間がかかるため、RoVi-Aug は信頼性の高いロボット トレーニング データセットを簡単にコンパイルできる費用対効果の高い代替手段となる可能性があります。

これらのデータセット内の画像は合成(つまり AI によって生成)されたものですが、信頼できるロボット ポリシーを作成するのに役立つ可能性があります。研究者らは現在、トヨタ研究所やその他の研究機関の同僚と協力して、そのアプローチを他のロボット データセットに適用し、拡張することに取り組んでいます。

「私たちは現在、画像生成の代わりにビデオ生成を行うなど、生成モデリング技術の最近の開発を組み込むことで、RoVi-Aug をさらに改良することを目指しています。」と Chen 氏と Xu 氏は付け加えました。

「私たちはまた、RoVi-Aug を Open-X 実施形態 (OXE) データセットなどの既存のデータセットに適用する予定であり、ジェネラリストのパフォーマンスを向上させる可能性に興奮しています。このデータに基づいてトレーニングされたポリシー。RoVi-Aug の機能を拡張することで、より広範囲のロボットやタスクにわたってこれらのポリシーの柔軟性と堅牢性が大幅に向上する可能性があります。」

詳細情報:Lawrence Yunliang Chen et al、RoVi-Aug: クロスエミディメントロボット学習のためのロボットと視点の拡張、arXiv(2024年)。DOI: 10.48550/arxiv.2409.03403

雑誌情報: arXiv

© 2024 サイエンス X ネットワーク

引用:新しいデータ拡張アルゴリズムにより、ロボット間でのスキルの伝達が容易になる可能性がある (2024 年 10 月 10 日)2024 年 10 月 10 日に取得https://techxplore.com/news/2024-10-augmentation-algorithm-skills-robots.html より

この文書は著作権の対象です。個人的な研究や研究を目的とした公正な取引を除いて、書面による許可なく一部を複製することができます。コンテンツは情報提供のみを目的として提供されています。