Rice research could make weird AI images a thing of the past
左側の画像は標準的な方法で生成されたものであり、右側の画像は ElasticDiffusion によって生成されたものです。両方の画像のプロンプトは、「記者会見で最新のスキャンダルをジャーナリストに説明するスポーツ選手の猫の写真」でした。クレジット: Moayed Haji Ali/ライス大学

生成人工知能 (AI) は一貫した画像を作成するのに苦労しており、指や顔の対称性などの細部が間違っていることがよくあります。さらに、これらのモデルは、異なる画像サイズと解像度で画像を生成するよう求められた場合に完全に失敗する可能性があります。

ライス大学のコンピューター科学者による、事前トレーニングされた画像を生成する新しい方法モデル - トレーニング対象の画像にランダムなノイズの層を次々と追加することで「学習」し、追加されたノイズを除去して新しい画像を生成する生成 AI モデルのクラス - このような問題の修正に役立つ可能性があります。

ライス大学コンピュータサイエンス博士課程の学生、モエエド・ハジ・アリ氏は、電気電子学会(IEEE)で発表された査読済みの論文の中で、ElasticDiffusionと呼ばれる新しいアプローチについて説明した。2024 年コンピューター ビジョンとパターン認識 (CVPR) カンファレンスシアトルで。

「Stable Diffusion、Midjourney、DALL-E などの拡散モデルは印象的な結果を生み出し、かなり本物そっくりでフォトリアリスティックな画像を生成します」と Haji Ali 氏は述べています。「しかし、それらには弱点があります。正方形の画像しか生成できないということです。したがって、モニターやスマートウォッチなど、アスペクト比が異なる場合には、これらのモデルが問題になるのです。」

安定拡散のようなモデルに非正方形の画像 (アスペクト比 16:9 など) を作成するように指示すると、生成された画像の構築に使用される要素が反復的になります。その繰り返しは、指が 6 本ある人や奇妙に細長い車など、画像や画像の被写体に奇妙に見える変形として現れます。

Rice research could make weird AI images a thing of the past
ライス大学コンピュータサイエンス博士課程の学生、モエエド・ハジ・アリ氏が自身の研究成果を発表、CVPR でポスターを発表。クレジット: Vicente OrdÃѱez-Román/Rice University

これらのモデルのトレーニング方法も問題の一因となります。

「特定の解像度の画像のみでモデルをトレーニングすると、その解像度の画像しか生成できなくなります」と、グハ氏とともにハジ・アリ氏の研究に助言を与えたコンピューターサイエンス准教授のビセンテ・オルドニャズ・ロマン氏は語る。バラクリシュナン、電気工学およびコンピュータ工学の助教授。

Ordéѱez-Román 氏は、これは過学習として知られる AI 特有の問題であると説明しました。AI モデルは、トレーニングされたものと同様のデータを生成するのに過度に優れていますが、これらのパラメーターから大きく逸脱することはできません。

「より多様な画像でモデルをトレーニングすることでこの問題を解決できるかもしれませんが、それには高価で、数百、場合によっては数千ものグラフィックス処理ユニットに及ぶ膨大な量の計算能力が必要です」とオルデス・ロマン氏は語った。

Haji Ali 氏によると、拡散モデルで使用されるデジタル ノイズは、ローカルとグローバルの 2 つのデータ タイプを持つ信号に変換できます。ローカル信号には、目の形や犬の毛皮の質感などのピクセルレベルの詳細情報が含まれています。グローバル信号には、画像の全体的な輪郭がより多く含まれます。

Rice research could make weird AI images a thing of the past
左側の画像は標準的な方法で生成されたものであり、右側の画像は ElasticDiffusion によって生成されたものです。両方の画像のプロンプトは、「最新の画期的な発見を発表する、青とグレーの服を着たかわいい科学者フクロウのポートレートを想像してください」でした。彼の目は明るい茶色です。彼の服装はシンプルだが威厳がある – クレジット: Moayed Haji Ali/Rice University

「拡散モデルが非正方形のアスペクト比について支援を必要とする理由の 1 つは、通常、拡散モデルがローカル情報とグローバル情報を一緒にパッケージ化しているためです」と、オルデス ロマンズに入社する前に AI 生成ビデオの動きの合成に取り組んでいたハジ アリ氏は述べています。研究グループライス大学で博士号取得勉強します。「モデルが非正方形の画像内の余分なスペースを考慮してそのデータを複製しようとすると、視覚的に不完全な結果が生じます。」

Haji Ali の論文の ElasticDiffusion メソッドは、画像の作成に異なるアプローチを採用しています。ElasticDiffusion は、両方の信号を一緒にパッケージ化するのではなく、ローカル信号とグローバル信号を条件付き生成パスと無条件生成パスに分離します。無条件モデルから条件付きモデルを減算し、全体的な画像情報を含むスコアを取得します。

その後、ローカル ピクセル レベルの詳細を含む無条件パスが画像の象限に適用され、詳細が一度に 1 マスずつ埋められます。画像のアスペクト比がどうあるべきか、画像が何であるか (犬、走っている人など) というグローバル情報は分離されたままであるため、AI が信号を混同してデータを繰り返す可能性はありません。その結果、アスペクト比に関係なく、追加のトレーニングを必要としない、よりクリーンな画像が得られます。

「このアプローチは、モデルの中間表現を活用してモデルをスケールアップし、グローバルな一貫性を確保するという成功した試みです」と Ordéѱez-Román 氏は述べています。

他の拡散モデルと比較した ElasticDiffusion の唯一の欠点は時間です。現在、ハジ・アリ氏の手法では、画像を作成するのに最大で 6 ~ 9 倍の時間がかかります。目標は、安定拡散や DALL-E などの他のモデルと同じ推論時間を短縮することです。

「私がこの研究が進むことを望んでいるのは、なぜ拡散モデルがより反復的な部分を生成し、これらの変化するアスペクト比に適応できないのかを定義し、アスペクト比に関係なく正確にあらゆるアスペクト比に適応できるフレームワークを考案することです。同じ推論時間でトレーニングを行っています」とハジ・アリ氏は語った。

詳細情報:ElasticDiffusion: グローバルとローカルのコンテンツ分離によるトレーニング不要の任意サイズの画像生成、コンピューター ビジョンとパターン認識に関する IEEE/CVF カンファレンス 2024。著者: Moayed Haji-Ali、Guha Balakrishnan、Vicente Ordéѱez-Román、cvpr.thecvf.com/

プロジェクトページ:elasticdiffusion.github.io/

プロジェクトのデモ:複製.com/moayedhajiali/elasticdiffusion

プロジェクトコード:github.com/MoayedHajiAli/ElasticDiffusion-official

引用:新しい研究により、奇妙な AI 画像は過去のものになる可能性があります (2024 年 9 月 15 日)2024 年 9 月 15 日に取得https://techxplore.com/news/2024-09-rice-weird-ai-images.html より

この文書は著作権の対象です。個人的な研究や研究を目的とした公正な取引を除き、書面による許可なく一部を複製することができます。コンテンツは情報提供のみを目的として提供されています。