新しい方法により、ロボットは一連のタスクを完了するためにシーンをマッピングし、オブジェクトを識別できるようになります

2024-10-01 05:46:19

ソースのパックが散乱したカウンターから始めて、散らかったキッチンを整理しなければならないことを想像してみてください。カウンタを一掃することが目標の場合は、グループとしてパケットを掃除するとよいでしょう。ただし、残りを捨てる前に、最初にマスタードのパックを取り出したい場合は、ソースの種類ごとに、より明確に分類することになります。そして、マスタードの中で、Grey Poupon が欲しくなったら、この特定のブランドを見つけるには、より慎重に探す必要があります。

Helping robots zero in on the objects that matter — MIT の Clio はリアルタイムで実行され、ロボットの周囲にあるタスクに関連するオブジェクトをマッピングし、ボット (ボストンダイナミックの四足ロボット Spot、写真) が自然言語タスク (「オレンジ色のバックパックを拾う」) を実行できるようにします。クレジット: マサチューセッツ工科大学

ソースのパックが散乱したカウンターから始めて、散らかったキッチンを整理しなければならないことを想像してみてください。カウンタを一掃することが目標の場合は、グループとしてパケットを掃除するとよいでしょう。ただし、残りを捨てる前に、最初にマスタードの小袋を取り出したい場合は、ソースの種類ごとに、より区別して分類することになります。そして、マスタードの中で Grey Poupon が欲しくなったら、この特定のブランドを見つけるには、より慎重に探す必要があります。

MIT のエンジニアは、ロボットが同様に直観的でタスクに関連した意思決定をできるようにする方法を開発しました。

Clio と名付けられたチームの新しいアプローチは、ロボットの部分を特定するシーン目の前のタスクを考えると、それは重要です。Clio を使用すると、ロボットは以下で説明されているタスクのリストを受け取ります。自然言語そして、それらのタスクに基づいて、周囲を解釈し、関連するシーンの部分だけを「記憶」するために必要な粒度のレベルを決定します。

MIT キャンパスの雑然とした小部屋から 5 階建ての建物に至るまでの実際の実験で、チームは Clio を使用して、「ラックを移動する」などの自然言語プロンプトで指定された一連のタスクに基づいて、さまざまな粒度レベルでシーンを自動的にセグメント化しました。雑誌の購入」と「救急箱の入手」。

チームはクリオも走らせたリアルタイム四足歩行ロボットに乗って。ロボットがオフィスビル内を探索すると、クリオはロボットのタスクに関連するシーンの部分（事務用品の山を無視して犬のおもちゃを取り出すなど）のみを特定してマッピングし、ロボットが関心のあるオブジェクトを把握できるようにしました。

クリオは、特定のタスクに重要な要素だけを識別して記憶する能力にちなんで、ギリシャの歴史の女神にちなんで名付けられました。研究者らは、Clio が、ロボットが与えられたタスクの文脈で周囲を迅速に調査して理解する必要がある多くの状況や環境で役立つだろうと想定しています。

マサチューセッツ工科大学航空宇宙学科（エアロアストロ）の准教授であり、この研究の主任研究員であるルカ・カルローネ氏は、「捜索救助はこの研究の動機となるアプリケーションですが、クリオは家庭用ロボットや工場現場で人間と並んで作業するロボットにも電力を供給することができます」と述べています。情報意思決定システム研究所 (LIDS) および MIT SPARK 研究所の所長。「実際には、ロボットが環境を理解し、その使命を遂行するために何を覚えておく必要があるかを理解するのを助けることが重要です。」

チームはその結果を次の文書で詳しく説明しています。勉強今日の雑誌に掲載されましたIEEE ロボティクスとオートメーションに関するレター。Carlone の共著者には、SPARK Lab のメンバーである Dominic Maggio、Yun Chang、Nathan Hughes、Lukas Schmid が含まれます。MITリンカーン研究所のメンバー：マシュー・トラン、ダン・グリフィス、カーリン・ドハティ、エリック・クリストファロ。

オープンフィールド

コンピュータービジョンと自然言語処理の分野における大きな進歩により、ロボットが周囲の物体を識別できるようになりました。しかし、最近まで、ロボットは「クローズドセット」シナリオでのみそれを行うことができました。このシナリオでは、ロボットが認識するように事前に訓練されている有限数の物体を使用して、注意深く厳選され制御された環境で動作するようにプログラムされています。

近年、研究者たちは、ロボットがより現実的な環境で物体を認識できるようにするために、より「オープン」なアプローチを採用しています。開集合認識の分野では、研究者らは深層学習ツールを活用して、インターネットからの数十億枚の画像と各画像に関連付けられたテキスト（「会いましょう」というキャプションが付いた友人の Facebook の犬の写真など）を処理できるニューラルネットワークを構築しました。私の新しい子犬です！」）。

ニューラルネットワークは、何百万もの画像とテキストのペアから学習し、犬などの特定の用語に特徴的なシーン内のセグメントを識別します。ロボットはそのニューラルネットワークを適用して、まったく新しいシーンで犬を見つけることができます。

しかし、特定のタスクに関連する有用な方法でシーンを解析する方法については、依然として課題が残っています。

「一般的な方法では、シーンのセグメントを 1 つの『オブジェクト』とみなせるものに融合する方法を決定するために、任意の固定レベルの粒度が選択されます」とマッジョ氏は言います。「しかし、『オブジェクト』と呼ばれるものの粒度は、実際にはロボットが何をしなければならないかに関係しています。その粒度がタスクを考慮せずに固定されている場合、ロボットはその目的に役に立たないマップを作成する可能性があります。」タスク。」

情報のボトルネック

MIT チームは、Clio を使用して、目の前のタスクに自動的に調整できるレベルの粒度でロボットが周囲の環境を解釈できるようにすることを目指しました。

たとえば、本の束を棚に移動するというタスクが与えられた場合、ロボットは本の束全体がタスクに関連するオブジェクトであると判断できなければなりません。同様に、タスクがスタックの残りの部分から緑色の本のみを移動する場合、ロボットは緑色の本を単一のターゲットオブジェクトとして区別し、スタック内の他の本を含むシーンの残りの部分を無視する必要があります。

チームのアプローチは、最先端のコンピュータービジョンと大規模な言語モデルを組み合わせたものです。ニューラルネットワーク何百万ものオープンソース画像とセマンティックテキストの間で接続を確立します。また、画像を多数の小さなセグメントに自動的に分割するマッピングツールも組み込まれており、これらのセグメントをニューラルネットワークに入力して、特定のセグメントが意味的に類似しているかどうかを判断できます。

次に研究者らは、「情報ボトルネック」と呼ばれる古典的な情報理論のアイデアを活用し、特定のタスクに意味的に最も関連性の高いセグメントを選択して保存する方法で、多数の画像セグメントを圧縮します。

「たとえば、シーンに本の山があり、私のタスクは緑色の本を入手することだけだとします。その場合、シーンに関するすべての情報をこのボトルネックに押し込み、最終的に次のことを表すセグメントのクラスターが得られます。緑の本だよ」とマッジョは説明する。

「関連性のない他のすべてのセグメントは、単純に削除できるクラスターにグループ化されるだけです。そして、私のタスクをサポートするために必要な適切な粒度のオブジェクトが残ります。」

研究者らは、さまざまな現実世界の環境で Clio を実証しました。

「本当にナンセンスな実験だと考えたのは、事前に掃除をしなかった私のアパートでクリオを実行することです」とマッジョ氏は言う。

チームは「山積みになった衣服を移動する」などの自然言語タスクのリストを作成し、マッジョさんの散らかったアパートの画像にクリオを適用した。このような場合、Clio はアパートのシーンを迅速にセグメント化し、そのセグメントを情報ボトルネックアルゴリズムにフィードして、衣服の山を構成するセグメントを特定することができました。

彼らはまた、ボストン・ダイナミクスの四足ロボット、スポット上でクリオを走らせた。彼らはロボットに完了すべきタスクのリストを与え、ロボットがオフィスビルの内部を探索してマッピングすると、Clio は Spot に取り付けられたオンボードコンピューター上でリアルタイムで実行され、マッピングされたシーンからセグメントを抽出しました。与えられたタスクに視覚的に関連します。

この方法では、ターゲットオブジェクトのみを示すオーバーレイマップが生成され、ロボットはそれを使用して特定されたオブジェクトに接近し、物理的にオブジェクトを完成させます。タスク。

「Clio をリアルタイムで実行できたことは、チームにとって大きな成果でした」とマッジョ氏は言います。「以前の作業の多くは、実行に数時間かかる場合があります。」

今後、チームは、より高レベルのタスクを処理できるように Clio を適応させ、フォトリアリスティックなビジュアルシーン表現における最近の進歩を基盤とする予定です。

「私たちは依然として、『トランプのデッキを見つける』など、ある程度具体的なタスクをクリオに与えています」とマッジョ氏は言う。「捜索と救助の場合は、『生存者を見つける』や『電気を復旧する』など、より高度なタスクを与える必要があります。したがって、私たちはより複雑なタスクを達成する方法について、より人間レベルの理解を深めたいと考えています。」

詳細情報:Dominic Maggio 他、Clio: リアルタイムタスク駆動のオープンセット 3D シーングラフ、IEEE ロボティクスとオートメーションに関するレター（2024年）。DOI: 10.1109/LRA.2024.3451395。dspace.mit.edu/handle/1721.1/157072この記事は MIT ニュースのご厚意により再掲載されています (

web.mit.edu/ニュースオフィス/) は、MIT の研究、イノベーション、教育に関するニュースを扱う人気のサイトです。引用

:新しい方法により、ロボットが一連のタスクを完了するためにシーンをマッピングし、オブジェクトを識別できるようになります (2024 年 9 月 30 日)2024 年 10 月 1 日に取得https://techxplore.com/news/2024-09-method-enables-robots-scene-tasks.html より

この文書は著作権の対象です。個人的な研究や研究を目的とした公正な取引を除いて、書面による許可なく一部を複製することができます。コンテンツは情報提供のみを目的として提供されています。

他の言語バージョンも参照: English | 简中 | 正體 | 日本語 | 한국인 | हिंदी | Español