generative adversarial networks
图片来源:Pixabay/CC0 公共领域

近年来,人工智能(AI)和深度学习模型发展迅速,变得越来越容易获取。这使得人们,即使是那些没有专业知识的人,也能够使用人工智能执行各种任务。在这些模型中,生成对抗网络(GAN)因其在生成与训练数据具有相同特征的新数据实例方面的出色表现而脱颖而出,这使得它们对于生成图像、音乐和文本特别有效。

GAN 由两个组成,即从随机噪声开始创建新数据分布的生成器,以及检查生成的数据分布是“真实”(与训练数据匹配)还是“假”的鉴别器。随着训练的进行,生成器在生成真实分布方面有所改进,而鉴别器在识别生成的数据是假的方面有所改进。

GAN 使用损失函数来衡量假分布和真实分布之间的差异。然而,这种方法可能会导致梯度消失和学习不稳定等问题,直接影响稳定性和效率。尽管在改进 GAN 方面取得了相当大的进展,包括结构修改和损失函数调整,但梯度消失和模式崩溃(生成器产生的多样性有限)等挑战继续限制了它们的适用性。

为了解决这些问题,韩国中央大学电气与电子工程学院 Minhyeok Lee 助理教授领导的研究小组制定了一项新策略。“想象一下教一位艺术家画风景。一致的指导可能会导致他们产生相似的场景,这种现象在机器学习中称为模式崩溃。为了防止这种情况,我们的 PMF-GAN 模型改进了鉴别器的能力,惩罚生成器产生过于相似的输出,从而促进多样性,”李博士解释道。

他们的研究结果发表在期刊上应用软计算2024 年 10 月。

PMF-GAN 框架引入了两个关键增强功能。首先,它采用内核优化来细化判别器的能力,在解决模型崩溃和梯度消失问题方面具有显着优势。内核是将数据转换为更高维空间的数学函数,即使在复杂的数据中也可以更轻松地检测模式。鉴别器的输出通过核函数进行处理,产生核密度估计(KDE)。

其次,PMF-GAN 将一种称为直方图变换的数学技术应用于 KDE 输出,从而能够更直观地分析结果。在训练过程中,模型会最小化核直方图变换后的假分布和真实分布之间的差异,这种差异称为 PMF 距离。

特别是,该方法允许使用各种数学距离函数和核函数。这种灵活性使得 PMF-GAN 能够适应不同的数据类型和学习目标。此外,PMF-GAN 可以集成到现有改进的 GAN 架构中,以获得更好的性能。

在实验中,PMF-GAN 在多个数据集的视觉质量和评估指标方面优于多个基线模型。对于 Animal FacesHQ 数据集,与传统的 WGAN-GP 模型相比,其初始分数提高了 56.9%,Fréchet 初始距离 (FID) 分数提高了 61.5%。

“灵活性和PMF-GAN 的提出为在各种技术和数字领域生成合成数据开辟了新的可能性。在,这将带来更加稳定和多样化的图像生成。它还可以为电影、视频游戏和虚拟现实体验提供更真实、更多样化的计算机生成视觉效果。”Lee 博士说道。

“随着人工智能生成的内容在我们的日常生活中变得越来越普遍,我们的方法提高了内容的质量和多样性,并将确保人工智能继续成为人类创造力和解决问题的宝贵工具。”

更多信息:Jangwon Seo 等人,使用核直方图变换和概率质量函数距离进行稳定的 GAN 模型训练,应用软计算(2024)。DOI:10.1016/j.asoc.2024.112003

提供者:中央大学

引文:研究人员开发了一种新的生成对抗网络模型,可以稳定训练和表现(2024 年,10 月 16 日)检索日期:2024 年 10 月 16 日来自 https://techxplore.com/news/2024-10-generative-adversarial-networks-stabilizes.html

本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外,不得未经书面许可,不得复制部分内容。所提供的内容仅供参考。