generative adversarial networks
Crédito: Pixabay/CC0 Dominio público

En los últimos años, la inteligencia artificial (IA) y los modelos de aprendizaje profundo han avanzado rápidamente y se han vuelto fácilmente accesibles.Esto ha permitido a las personas, incluso a aquellas sin conocimientos especializados, realizar diversas tareas con IA.Entre estos modelos, las redes generativas adversarias (GAN) destacan por su destacado desempeño a la hora de generar nuevas instancias de datos con las mismas características que los datos de entrenamiento, lo que las hace particularmente efectivas para generar imágenes, música y texto.

Las GAN constan de dos, es decir, un generador que crea nuevas distribuciones de datos a partir de ruido aleatorio y un discriminador que comprueba si la distribución de datos generada es "real" (que coincide con los datos de entrenamiento) o "falsa".A medida que avanza el entrenamiento, el generador mejora en la generación de distribuciones realistas y el discriminador en la identificación de los datos generados como falsos.

Las GAN utilizan una función de pérdida para medir las diferencias entre las distribuciones falsas y reales.Sin embargo, este enfoque puede causar problemas como la desaparición del gradiente y el aprendizaje inestable, lo que afecta directamente la estabilidad y la eficiencia.A pesar de los considerables avances en la mejora de las GAN, incluidas modificaciones estructurales y ajustes de la función de pérdida, desafíos como la desaparición del gradiente y el colapso del modo, donde el generador produce una variedad limitada, continúan limitando su aplicabilidad.

Para abordar estos problemas, un equipo de investigadores dirigido por el profesor asistente Minhyeok Lee de la Escuela de Ingeniería Eléctrica y Electrónica de la Universidad Chung-Ang (República de Corea) desarrolló una estrategia novedosa."Imagínese enseñar a un artista a pintar paisajes. Una guía constante puede llevarlos a producir escenas similares, un fenómeno llamado colapso de modo en el aprendizaje automático. Para evitar esto, nuestro modelo PMF-GAN refina las capacidades del discriminador, penalizando al generador por producir resultados demasiado similares., promoviendo así la diversidad", explica el Dr. Lee.

Sus hallazgos estuvieron disponibles en la revista.Computación blanda aplicadaen octubre de 2024.

El marco PMF-GAN introduce dos mejoras clave.En primer lugar, emplea la optimización del núcleo para refinar la capacidad del discriminador, ofreciendo una ventaja significativa a la hora de abordar problemas de colapso del modelo y desaparición del gradiente.Los núcleos son funciones matemáticas que transforman datos en un espacio de dimensiones superiores, lo que facilita la detección de patrones incluso en datos complejos.La salida del discriminador se procesa mediante funciones del núcleo, lo que produce la estimación de la densidad del núcleo (KDE).

En segundo lugar, PMF-GAN aplica una técnica matemática llamada transformación de histograma a la salida de KDE, lo que permite un análisis más intuitivo de los resultados.Durante el entrenamiento, el modelo minimiza la diferencia entre las distribuciones falsas y reales transformadas en el histograma del núcleo, una medida llamada distancia PMF.

En particular, este enfoque permite el uso de varias funciones matemáticas de distancia y funciones kernel.Esta flexibilidad permite que PMF-GAN se adapte a diferentes tipos de datos y objetivos de aprendizaje.Además, PMF-GAN se puede integrar en arquitecturas GAN mejoradas existentes para obtener un rendimiento aún mejor.

En los experimentos, PMF-GAN superó a varios modelos de referencia en términos de calidad visual y métricas de evaluación en múltiples conjuntos de datos.Para el conjunto de datos Animal FacesHQ, mostró una mejora del 56,9 % en la puntuación inicial y del 61,5 % en la puntuación de la distancia inicial de fréchet (FID) en comparación con el modelo WGAN-GP convencional.

"La flexibilidad ypresentado por PMF-GAN abre nuevas posibilidades para generar datos sintéticos en diversos campos tecnológicos y digitales.En, conducirá a una generación de imágenes más estable y diversa.También permite imágenes generadas por computadora más realistas y variadas para películas, videojuegos y experiencias de realidad virtual", comenta el Dr. Lee.

"A medida que el contenido generado por IA se vuelve más frecuente en nuestra vida diaria, nuestro método mejora la calidad y diversidad del contenido y garantizará que la IA siga siendo una herramienta valiosa para la creatividad humana y la resolución de problemas".

Más información:Jangwon Seo et al, Entrenamiento de modelos GAN estabilizados con transformación de histograma de núcleo y distancia de función de masa de probabilidad,Computación blanda aplicada(2024).DOI: 10.1016/j.asoc.2024.112003

Proporcionado porUniversidad Chung Ang

Citación:Investigadores desarrollan un nuevo modelo de redes generativas adversarias que estabiliza el entrenamiento y el rendimiento (2024, 16 de octubre)recuperado el 16 de octubre de 2024de https://techxplore.com/news/2024-10-generative-adversarial-networks-stabilizes.html

Este documento está sujeto a derechos de autor.Aparte de cualquier trato justo con fines de estudio o investigación privados, noparte puede ser reproducida sin el permiso por escrito.El contenido se proporciona únicamente con fines informativos.