Penn Engineers recreate Star Trek's Holodeck using ChatGPT and video game assets
基本的に、Holodeck は会話に大規模言語モデル (LLM) を使用し、仮想環境を部分的に構築します。クレジット: Yue Yang

「スタートレック: ネクスト ジェネレーション」では、ピカード船長と U.S.S. の乗組員が企業はホロデッキ (3D 環境を生成できる空の部屋) を活用して、ミッションの準備と娯楽を提供し、緑豊かなジャングルからシャーロック ホームズのロンドンまであらゆるものをシミュレートします。

Holodeck が作成した環境は、深く没入型で完全にインタラクティブで、言語のみを使用して無限にカスタマイズできます。乗組員はコンピューターに環境を生成するよう依頼するだけで、その空間がホロデッキに表示されます。

現在、仮想インタラクティブ環境は、「Sim2Real」と呼ばれるプロセスで現実世界に展開する前にロボットをトレーニングするためにも使用されています。しかし、仮想インタラクティブ環境は驚くほど不足しています。

「アーティストはこれらの環境を手動で作成します」と、コンピューターおよび情報科学 (CIS) の助教授および准教授である Mark Yatskar 氏と Chris Callison-Burch 氏の研究室の博士課程学生である Yue Yang 氏は語ります。「これらのアーティストは、1 つの環境を構築するのに 1 週​​間を費やすこともできます」とヤン氏は付け加え、空間のレイアウトからオブジェクトの配置、レンダリングで使用される色に至るまで、すべての決定が必要であると指摘しました。

複雑な現実世界をナビゲートするロボットを訓練したい場合、仮想環境の不足は問題になります。今日の AI 革命を推進するシステムであるニューラル ネットワークには、大量のデータが必要です。この場合、これは物理世界のシミュレーションを意味します。

「ChatGPT のような生成 AI システムは数兆の単語でトレーニングされ、Midjourney や DALL-E のような画像ジェネレーターは数十億の画像でトレーニングされます」と Callison-Burch 氏は言います。「いわゆる「身体化された AI」をトレーニングするための 3D 環境は、その量のほんの一部しかありません。生成 AI 技術を使用して現実世界の環境を安全に移動できるロボットを開発したい場合は、数百万、または数十億のシミュレーション環境を作成する必要があります。」

入力ホロデッキ、Callison-Burch、Yatskar、Yang、Lingjie Liu、CIS の Aravind K. Joshi 助教授、およびスタンフォード大学、ワシントン大学、およびアレン人工知能研究所の共同研究者が共同作成した、インタラクティブ 3D 環境を生成するシステム(AI2)。スタートレックの先祖にちなんで名付けられた Holodeck は、AI を使用してユーザーのリクエストを解釈し、事実上無限の範囲の屋内環境を生成します。

紙は出版されたarXivプレプリントサーバー。

「言語を使って制御することができます」とヤン氏は言う。「どんな環境でも簡単に記述し、具現化された AI エージェントを訓練することができます。」

Holodeck は、(LLM)、ChatGPT の基礎となるシステム、およびその他のチャットボット。「言語は世界全体を非常に簡潔に表現したものです」とヤン氏は言う。実際、LLM は、トレーニング中に摂取する膨大な量のテキストのおかげで、スペースのデザインについて驚くほど高度な知識を持っていることがわかります。基本的に、Holodeck は、LLM を会話に参加させ、慎重に構造化された一連の非表示クエリを使用して、ユーザーのリクエストを特定のパラメーターに分解することで機能します。

ユーザーは日常言語を使用して、Holodeck に事実上無限に多様な 3D 空間を生成するよう促すことができ、これにより世界を移動するロボットの訓練に新たな可能性が生まれます。クレジット: Yue Yang

ピカード船長がスタートレックのホロデッキに密酒場のシミュレーションを依頼するのと同じように、研究者はペンのホロデッキに「猫を飼っている研究者の 1 階 1 階のアパート」の作成を依頼できます。システムは、このクエリを複数のステップに分割して実行します。最初に床と壁が作成され、次に出入り口と窓が作成されます。

次に、ホロデッキの検索オブジャバース、コーヒーテーブル、キャットタワーなど、そのようなスペースに期待される種類の家具用の、既成のデジタルオブジェクトの膨大なライブラリです。最後に、Holodeck はレイアウト モジュールにクエリを実行します。このモジュールは、トイレが壁から水平に伸びた状態にならないように、オブジェクトの配置を制限するために研究者が設計したものです。

Holodeck の能力をリアリズムと正確さの観点から評価するために、研究者らは Holodeck と、AI2 によって作成された初期のツールである ProcTHOR の両方を使用して 120 のシーンを生成し、どのシーンが作成されたのかは分からないまま、ペンシルバニア大学工学部の数百人の学生に好みのバージョンを示すように依頼しました。どのツールを使って。アセットの選択、レイアウトの一貫性、全体的な好みといったあらゆる基準において、学生は一貫して Holodeck によって生成された環境をより好意的に評価しました。

研究者らはまた、ロボット研究ではあまり一般的ではなく、店舗、公共スペース、オフィスなどのアパートの内装よりも手動で作成するのが難しいシーンを生成するホロデックの能力もテストした。Holodeck の出力を、AI が生成したテキストではなく人間が作成したルールを使用して生成された ProcTHOR の出力と比較したところ、研究者らは人間の評価者が Holodeck によって作成されたシーンを好むことを再度発見しました。その好みは、科学研究室からアートスタジオ、ロッカールームからワインセラーに至るまで、幅広い屋内環境にわたって維持されました。

最後に、研究者らは Holodeck によって生成されたシーンを使用して、具現化された AI エージェントを「微調整」しました。「Holodeck の究極のテストは、これを利用してロボットがこれまで行ったことのない場所に生息できるようにすることで、より安全に環境と対話できるようにすることです。」と Yatskar 氏は言います。

Holodeck は、オフィス、デイケア、ジム、アーケードなど、さまざまな種類の仮想空間にわたって、エージェントが新しい空間をナビゲートする能力に顕著なプラスの効果をもたらしました。

たとえば、ProcTHOR を使用して事前トレーニングした場合 (エージェントは約 4 億の仮想ステップを実行する必要がありました)、エージェントが音楽室でピアノを見つけることに成功した確率はわずか約 6% でしたが、エージェントが音楽室でピアノを見つけることに成功した確率は 30% 以上でした。Holodeck によって生成された 100 のミュージック ルームを使用して微調整されます。

「この分野は長い間、住宅空間での研究が行き詰まっていました」とヤン氏は言う。「しかし、世の中には非常に多様な環境が存在します。ロボットを訓練するために多くの環境を効率的に生成することは常に大きな課題でしたが、Holodeck はこの機能を提供します。」

6月に研究者らはホロデックを2024 年電気電子学会 (IEEE) およびコンピューター ビジョン財団 (CVF) のコンピューター ビジョンとパターン認識 (CVPR) カンファレンスワシントン州シアトルにある。

詳細情報:Yue Yang 他、Holodeck: 3D に組み込まれた AI 環境の言語ガイドによる生成、arXiv(2023年)。DOI: 10.48550/arxiv.2312.09067

GitHub:yueyang1996.github.io/holodeck/

雑誌情報: arXiv

引用:エンジニアが ChatGPT とビデオ ゲーム アセットを使用してスタートレックのホロデッキを再現 (2024 年 4 月 11 日)2024 年 4 月 11 日に取得https://techxplore.com/news/2024-04-recreate-star-trek-holodeck-chatgpt.html より

この文書は著作権の対象です。個人的な研究や研究を目的とした公正な取引を除き、書面による許可なく一部を複製することができます。コンテンツは情報提供のみを目的として提供されています。