Combining next-token prediction and video diffusion in computer vision and robotics
クレジット: マサチューセッツ工科大学

現在の AI の時代精神では、データを分析し、次に何を行うかを予測する機能により、シーケンス モデルの人気が急上昇しています。たとえば、ユーザーのクエリに対する回答を形成するためにシーケンス内の各単語 (トークン) を予測する、ChatGPT のようなネクスト トークン予測モデルを使用したことがあるでしょう。Sora のようなフルシーケンス拡散モデルもあります。これは、ビデオ シーケンス全体を連続的に「ノイズ除去」することで、言葉をまばゆいばかりのリアルなビジュアルに変換します。

MIT のコンピュータ サイエンスおよび人工知能研究所 (CSAIL) の研究者は、このシーケンスのノイズ除去を大幅に柔軟にする拡散トレーニング スキームへの簡単な変更を提案しました。

コンピューター ビジョンやロボット工学などの分野に適用する場合、ネクスト トークン拡散モデルとフルシーケンス拡散モデルには機能のトレードオフがあります。Next-token モデルは、長さが異なるシーケンスを吐き出すことができます。

ただし、遠い将来の望ましい状態を意識せずにこれらの世代を作成するため (シーケンスの生成を 10 トークン先の特定の目標に向けて誘導するなど)、長期的な計画のための追加メカニズムが必要になります。拡散モデルは、このような将来条件付きサンプリングを実行できますが、可変長シーケンスを生成するネクストトークン モデルの機能がありません。

CSAIL の研究者は、両方のモデルの長所を組み合わせたいと考え、「拡散強制」と呼ばれるシーケンス モデル トレーニング手法を作成しました。この名前は、完全なシーケンス生成を次のトークン生成のより小さく簡単なステップに分割する従来のトレーニング スキームである「Teacher Forcing」に由来しています (優れた教師が複雑な概念を単純化するのとよく似ています)。

クレジット: マサチューセッツ工科大学

拡散強制は、拡散モデルと教師強制の間に共通点を発見しました。どちらも、マスクされた (ノイズのある) トークンをマスクされていないトークンから予測することを含むトレーニング スキームを使用します。拡散モデルの場合、データに徐々にノイズが追加されます。これは部分マスキングとみなすことができます。

MIT の研究者による拡散強制手法は、ニューラル ネットワークをトレーニングしてトークンのコレクションをクレンジングし、各トークン内のさまざまな量のノイズを除去しながら、同時に次のいくつかのトークンを予測します。その結果、柔軟で信頼性の高いシーケンス モデルが誕生し、より高品質の人工ビデオと、ロボットや AI エージェントのより正確な意思決定が実現しました。

拡散強制は、ノイズの多いデータを分類し、タスクの次のステップを確実に予測することで、ロボットが視覚的な邪魔を無視して操作タスクを完了できるように支援します。安定した一貫した生成も可能ですシーケンスを制御し、AI エージェントをデジタル迷路内でガイドすることもできます。

この方法により、家庭用ロボットや工場用ロボットが新しいタスクに汎用化し、AI が生成するエンターテイメントを改善できる可能性があります。

「シーケンス モデルは、既知の過去を条件付けし、未知の未来を予測することを目的としています。これはバイナリ マスキングの一種です。ただし、マスキングはバイナリである必要はありません」と筆頭著者の MIT は述べています。およびコンピューターサイエンス (EECS) 博士号学生でCSAILメンバーのBoyuan Chen氏。

「拡散強制を使用すると、各トークンに異なるレベルのノイズを追加し、一種のフラクショナル マスキングとして効果的に機能します。テスト時に、私たちのシステムはトークンのコレクションを「マスク解除」し、近い将来、より低いノイズでシーケンスを拡散できます。配布範囲外の入力を克服するためにデータ内で何を信頼すべきかを知っています。」

いくつかの実験では、拡散強制は、将来のアクションを予測しながら、誤解を招くデータを無視してタスクを実行することで成功しました。

に実装されると、たとえば、3 つの円形マット上で 2 つのおもちゃの果物を交換するのに役立ちました。これは、記憶を必要とする長期的なタスクの最小例です。研究者らは、仮想現実内で遠隔からロボットを制御(または遠隔操作)することでロボットを訓練した。

ロボットは、カメラからのユーザーの動きを模倣するように訓練されています。ランダムな位置から開始し、マーカーを遮るショッピングバッグなどの邪魔物があったにもかかわらず、オブジェクトを目標の場所に配置しました。

ビデオを生成するために、彼らは「Minecraft」のゲームプレイと、Google の DeepMind Lab Simulator 内に作成されたカラフルなデジタル環境で拡散強制をトレーニングしました。映像の単一フレームが与えられると、この方法は、Sora のようなフルシーケンスのような同等のベースラインよりも安定した高解像度のビデオを生成しました。モデルと ChatGPT のようなネクスト トークン モデル。

これらのアプローチでは一貫性のないように見えるビデオが作成され、後者はわずか 72 フレームを超えて正常に動作するビデオを生成できない場合がありました。

拡散強制は、派手なビデオを生成するだけでなく、望ましい結果や報酬に向けて方向転換するモーション プランナーとしても機能します。拡散強制は、その柔軟性のおかげで、さまざまな地平線を持つ計画を独自に生成し、ツリー検索を実行し、遠い将来は近い将来よりも不確実であるという直観を組み込むことができます。

2D 迷路を解くタスクでは、拡散強制は、ゴール位置につながるより高速な計画を生成することで 6 つのベースラインを上回り、将来的にはロボットの効果的な計画ツールとなる可能性があることを示しています。

各デモにわたって、拡散強制は完全なシーケンス モデル、ネクスト トークン予測モデル、またはその両方として機能しました。チェン氏によると、この汎用性の高いアプローチは、数十億のインターネット ビデオをトレーニングすることで世界のダイナミクスをシミュレートできる AI システムである「ワールド モデル」の強力なバックボーンとして機能する可能性があります。

これにより、ロボットは周囲の状況に基づいて何をする必要があるかを想像し、新しいタスクを実行できるようになります。たとえば、ドアを開ける方法のトレーニングを受けずにロボットにドアを開けるように依頼した場合、モデルはドアを開ける方法を機械に示すビデオを生成する可能性があります。

チームは現在、パフォーマンスを向上させるために、メソッドをより大規模なデータセットと最新のトランスフォーマー モデルにスケールアップすることを検討しています。彼らは、ロボットが人間によるデモンストレーションを行わずに新しい環境でタスクを実行できるようにする、ChatGPT のようなロボット脳を構築するために研究を拡大する予定です。

「Diffusion Forcing により、ビデオ生成とロボット工学をより近づける一歩を踏み出しました」と、主著者である MIT 助教授で CSAIL のメンバーであり、Scene Representation グループを率いる Vincent Sitzmann 氏は述べています。

「最終的には、インターネット上のビデオに保存されているすべての知識を活用して、ロボットが日常生活を支援できるようにしたいと考えています。ロボットが人間の姿を見て人間の真似をどのように学習できるかなど、さらに多くの興味深い研究課題が残っています。」自分の体は私たちの体とは大きく異なります。」

チームは次の場所で研究を発表します。NeurIPS12月に彼らの論文は利用可能arXivプレプリントサーバー。

詳細情報:Boyuan Chen 他、拡散強制: 次トークン予測とフルシーケンス拡散の融合、arXiv(2024年)。DOI: 10.48550/arxiv.2407.01392

雑誌情報: arXiv

引用:コンピュータービジョンとロボット工学におけるネクストトークン予測とビデオ普及の組み合わせ (2024 年 10 月 17 日)2024 年 10 月 17 日に取得https://techxplore.com/news/2024-10-combining-token-video-diffusion-vision.html より

この文書は著作権の対象です。個人的な研究や研究を目的とした公正な取引を除き、書面による許可なく一部を複製することができます。コンテンツは情報提供のみを目的として提供されています。