眾所周知,生成式人工智慧 (AI) 很難創建一致的影像,經常會出現手指和臉部對稱性等細節錯誤。此外,當提示產生不同影像尺寸和解析度的影像時,這些模型可能會完全失敗。
萊斯大學計算機科學家的預訓練生成圖像的新方法擴散模型——一類生成人工智慧模型,透過向訓練圖像添加一層又一層的隨機雜訊來“學習”,然後透過消除添加的雜訊來產生新影像——可以幫助糾正此類問題。
萊斯大學電腦科學博士生 Moayed Haji Ali 在電氣和電子工程師協會 (IEEE) 發表的同行評審論文中描述了這種名為 ElasticDiffusion 的新方法2024年電腦視覺與模式辨識會議(CVPR)在西雅圖。
「穩定擴散、中途擴散和 DALL-E 等擴散模型創造了令人印象深刻的結果,產生相當逼真和逼真的圖像,」哈吉·阿里說。“但它們有一個弱點:它們只能生成方形圖像。因此,如果有不同的縱橫比,例如在顯示器或智慧手錶上,這就是這些模型出現問題的地方。”
如果您告訴像穩定擴散這樣的模型建立非方形影像(例如 16:9 的長寬比),則用於建立生成影像的元素會重複。這種重複表現為圖像或圖像主體中看起來奇怪的畸形,就像有六個手指的人或一輛奇怪拉長的汽車。
這些模型的訓練方式也導致了這個問題。
「如果你只在特定分辨率的圖像上訓練模型,它們就只能生成具有該分辨率的圖像,」計算機科學副教授 Vicente Ordóñez-Román 說,他為 Haji Ali 與 Guha 一起工作提供了建議Balakrishnan,電氣和電腦工程助理教授。
Ordóñez-Román 解釋說,這是人工智慧特有的一個問題,稱為過度擬合,即人工智慧模型過於擅長生成與其訓練數據相似的數據,但不能偏離這些參數太遠。
「你可以透過在更廣泛的圖像上訓練模型來解決這個問題,但它很昂貴,並且需要大量的運算能力——數百甚至數千個圖形處理單元,」Ordóñez-Román 說。
根據 Haji Ali 的說法,擴散模型使用的數位雜訊可以轉換為具有兩種資料類型的訊號:局部和全局。本地訊號包含像素級細節訊息,例如眼睛的形狀或狗皮毛的紋理。全域訊號更包含影像的整體輪廓。
「擴散模型需要非方形長寬比方面的幫助的原因之一是它們通常將本地和全局信息打包在一起,」哈吉·阿里(Haji Ali) 說道,他在加入Ordóñez-Román 之前致力於合成人工智慧生成的影片中的運動。研究小組在萊斯大學攻讀博士學位。研究。“當模型嘗試複製該數據以解釋非方形圖像中的額外空間時,會導致視覺缺陷。”
Haji Ali 論文中的 ElasticDiffusion 方法採用不同的方法來創建圖像。ElasticDiffusion 不是將兩個訊號打包在一起,而是將本地訊號和全域訊號分離為條件和無條件產生路徑。它從無條件模型中減去條件模型,獲得包含全域影像資訊的分數。
之後,將具有局部像素級細節的無條件路徑應用於象限中的影像,一次填入一個正方形的細節。全局資訊——圖像的長寬比應該是多少以及圖像是什麼(狗、跑步的人等)——保持獨立,因此人工智慧不會混淆信號和重複數據。無論縱橫比如何,結果都是更清晰的圖像,不需要額外的訓練。
Ordóñez-Román 說:“這種方法是一次成功的嘗試,利用模型的中間表示來擴展模型,從而獲得全局一致性。”
相對於其他擴散模型,ElasticDiffusion 的唯一缺點是時間。目前,Haji Ali 的方法製作圖像所需的時間是原來的 6-9 倍。目標是將其減少到與穩定擴散或 DALL-E 等其他模型相同的推理時間。
「我希望這項研究的目的是定義…為什麼擴散模型會產生這些更多重複的部分,並且無法適應這些不斷變化的縱橫比,並提出一個可以適應任何縱橫比的框架,無論訓練,同時進行推理,」哈吉·阿里說。
更多資訊:ElasticDiffusion:透過全局本地內容分離實現免訓練任意尺寸圖像生成,2024 年 IEEE/CVF 計算機視覺和模式識別會議。cvpr.thecvf.com/
專案頁面:elasticdiffusion.github.io/
引文:新研究可能會讓奇怪的人工智慧影像成為過去(2024 年,9 月 15 日)檢索日期:2024 年 9 月 15 日來自 https://techxplore.com/news/2024-09-rice-weird-ai-images.html
本文檔受版權保護。除了出於私人學習或研究目的的任何公平交易外,不得未經書面許可,不得複製部分內容。所提供的內容僅供參考。