Rice research could make weird AI images a thing of the past
左边的图片是用标准方法生成的,右边的图片是用ElasticDiffusion生成的。这两张图片的提示都是“一只运动员猫在新闻发布会上向记者解释其最新丑闻的照片”。图片来源:Moayed Haji Ali/莱斯大学

众所周知,生成式人工智能 (AI) 很难创建一致的图像,经常会出现手指和面部对称性等细节错误。此外,当提示生成不同图像尺寸和分辨率的图像时,这些模型可能会完全失败。

莱斯大学计算机科学家的预训练生成图像的新方法模型——一类生成人工智能模型,通过向训练图像添加一层又一层的随机噪声来“学习”,然后通过消除添加的噪声来生成新图像——可以帮助纠正此类问题。

莱斯大学计算机科学博士生 Moayed Haji Ali 在电气和电子工程师协会 (IEEE) 发表的同行评审论文中描述了这种名为 ElasticDiffusion 的新方法2024年计算机视觉与模式识别会议(CVPR)在西雅图。

“稳定扩散、中途扩散和 DALL-E 等扩散模型创造了令人印象深刻的结果,生成相当逼真和逼真的图像,”哈吉·阿里说。“但它们有一个弱点:它们只能生成方形图像。因此,如果有不同的纵横比,例如在显示器或智能手表上,这就是这些模型出现问题的地方。”

如果您告诉像稳定扩散这样的模型创建非方形图像(例如 16:9 的长宽比),则用于构建生成图像的元素会重复。这种重复表现为图像或图像主体中看起来奇怪的畸形,就像有六个手指的人或一辆奇怪拉长的汽车。

Rice research could make weird AI images a thing of the past
莱斯大学计算机科学博士生 Moayed Haji Ali 在 CVPR 上展示了他的作品和海报。图片来源:Vicente Ordóñez-Román/莱斯大学

这些模型的训练方式也导致了这个问题。

“如果你只在特定分辨率的图像上训练模型,它们就只能生成具有该分辨率的图像,”计算机科学副教授 Vicente Ordóñez-Román 说,他为 Haji Ali 与 Guha 一起工作提供了建议Balakrishnan,电气和计算机工程助理教授。

Ordóñez-Román 解释说,这是人工智能特有的一个问题,称为过度拟合,即人工智能模型过于擅长生成与其训练数据相似的数据,但不能偏离这些参数太远。

“你可以通过在更广泛的图像上训练模型来解决这个问题,但它很昂贵,并且需要大量的计算能力——数百甚至数千个图形处理单元,”Ordóñez-Román 说。

根据 Haji Ali 的说法,扩散模型使用的数字噪声可以转换为具有两种数据类型的信号:局部和全局。本地信号包含像素级细节信息,例如眼睛的形状或狗皮毛的纹理。全局信号更多地包含图像的整体轮廓。

Rice research could make weird AI images a thing of the past
左边的图片是用标准方法生成的,右边的图片是用ElasticDiffusion生成的。这两张图片的提示是,想象一幅可爱的科学家猫头鹰的肖像,穿着蓝色和灰色的衣服,宣布他们最新的突破性发现。他的眼睛是浅棕色的。他的着装简单而庄重——图片来源:Moayed Haji Ali/莱斯大学

“扩散模型需要非方形长宽比方面的帮助的原因之一是它们通常将本地和全局信息打包在一起,”哈吉·阿里 (Haji Ali) 说道,他在加入 Ordóñez-Román 之前致力于合成人工智能生成的视频中的运动。研究小组在莱斯大学攻读博士学位。研究。“当模型尝试复制该数据以解释非方形图像中的额外空间时,会导致视觉缺陷。”

Haji Ali 论文中的 ElasticDiffusion 方法采用不同的方法来创建图像。ElasticDiffusion 不是将两个信号打包在一起,而是将本地信号和全局信号分离为条件和无条件生成路径。它从无条件模型中减去条件模型,获得包含全局图像信息的分数。

之后,将具有局部像素级细节的无条件路径应用于象限中的图像,一次填充一个正方形的细节。全局信息——图像的长宽比应该是多少以及图像是什么(狗、跑步的人等)——保持独立,因此人工智能不会混淆信号和重复数据。无论纵横比如何,结果都是更清晰的图像,不需要额外的训练。

Ordóñez-Román 说:“这种方法是一次成功的尝试,利用模型的中间表示来扩展模型,从而获得全局一致性。”

相对于其他扩散模型,ElasticDiffusion 的唯一缺点是时间。目前,Haji Ali 的方法制作图像所需的时间是原来的 6-9 倍。目标是将其减少到与稳定扩散或 DALL-E 等其他模型相同的推理时间。

“我希望这项研究的目的是定义……为什么扩散模型会生成这些更多重复的部分,并且无法适应这些不断变化的纵横比,并提出一个可以适应任何纵横比的框架,无论训练,同时进行推理,”哈吉·阿里说。

更多信息:ElasticDiffusion:通过全局本地内容分离实现免训练任意尺寸图像生成,2024 年 IEEE/CVF 计算机视觉和模式识别会议。作者:Moayed Haji-Ali、Guha Balakrishnan 和 Vicente Ordóñez-Román,cvpr.thecvf.com/

项目页面:elasticdiffusion.github.io/

项目演示:replicate.com/moayedhajiali/elasticdiffusion

项目代码:github.com/MoayedHajiAli/ElasticDiffusion-official

引文:新研究可能会让奇怪的人工智能图像成为过去(2024 年,9 月 15 日)检索日期:2024 年 9 月 15 日来自 https://techxplore.com/news/2024-09-rice-weird-ai-images.html

本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外,不得未经书面许可,不得复制部分内容。所提供的内容仅供参考。