Google、AIベースの次世代テキスト動画ジェネレーター「Lumiere」の開発を発表

2024-01-26 15:20:52

Google Research の AI 研究者チームは、Lumiere と呼ばれる次世代の AI ベースのテキスト動画ジェネレーターを開発しました。このグループは、arXiv プレプリントサーバーでの取り組みについて説明した論文を発表しました。

Google announces the development of Lumiere, an AI based next-generation text-to-video generator — Lumiere によって生成されたサンプル結果。テキストからビデオへの生成 (1 行目)、イメージからビデオへの生成 (2 行目)、スタイル参照生成、ビデオ修復 (3 行目。境界ボックスは修復マスク領域を示します) が含まれます。クレジット：*arXiv*（2024年）。DOI: 10.48550/arxiv.2401.12945

Google Research の AI 研究者チームは、Lumiere と呼ばれる次世代の AI ベースのテキスト動画ジェネレーターを開発しました。グループは、出版されたに関する彼らの取り組みを説明した論文arXivプレプリントサーバー。

過去数年間で、人工知能アプリケーションは研究室から一般のユーザーコミュニティに移行しました。たとえば、ChatGPT などの LLM はブラウザーと統合され、ユーザーは前例のない方法でテキストを生成できるようになりました。

最近では、テキストから画像へのジェネレーターを使用して、ユーザーが超現実的な画像を作成できるようになりました。また、テキストからビデオへのジェネレーターを使用すると、ユーザーはいくつかの単語だけを使用して短いビデオクリップを生成できます。この新しい取り組みにおいて、Google のチームは、テキストをビデオに変換するジェネレーターの発表により、この最後のカテゴリーを新たな高みに引き上げました。ルミエール。

Lumiere は、おそらく初期の写真撮影機器の先駆者である Lumiere 兄弟にちなんで名付けられたもので、ユーザーが「2 匹のアライグマが一緒に本を読んでいる」などの簡単な文を入力すると、2 匹のアライグマがちょうどそれをしている様子を映した完全に完成したビデオを取得できます。驚くほどの高解像度で。新しいジェネレーターは、はるかに見栄えの良い結果を作成することにより、テキストからビデオへのジェネレーター開発の次のステップを表します。

Googleは、新しい発電機の背後にある技術を「画期的な時空U-Netアーキテクチャ」と説明している。これは、単一のモデルパスでアニメーションビデオを生成するように設計されています。

デモビデオでは、ユーザーが既存のビデオの一部を強調表示したり、「ドレスの色を赤に変更する」などの指示を入力することで編集できるようにするなど、Googleが追加機能を追加したことが示されている。このジェネレーターは、フルカラー表現ではなく主題のスタイルが作成されるスタイル化など、さまざまなタイプの結果も生成します。また、さまざまなスタイル参照などのサブスタイルも許可されます。また、ユーザーが静止画像の一部または全体を強調表示してアニメーション化できるシネマグラフィックスも実行します。

Googleは発表の中で、Lumiereを一般にリリースまたは配布する計画があるかどうかについては明らかにしなかったが、これはおそらく、著作権法に違反する動画が作成される可能性によって明らかな法的影響が生じる可能性があるためと考えられる。

詳細情報:Omer Bar-Tal 他、Lumiere: ビデオ生成のための時空拡散モデル、arXiv（2024年）。DOI: 10.48550/arxiv.2401.12945

lumiere-video.github.io/

雑誌情報: arXiv

引用:Google、AIベースの次世代テキスト動画ジェネレーター「Lumiere」の開発を発表（2024年1月26日）2024 年 1 月 26 日に取得https://techxplore.com/news/2024-01-google-lumiere-ai-based-generation.html より

この文書は著作権の対象です。個人的な研究や研究を目的とした公正な取引を除き、書面による許可なく一部を複製することができます。コンテンツは情報提供のみを目的として提供されています。