Una nueva investigación podría hacer que las extrañas imágenes de IA sean cosa del pasado

2024-09-15 09:05:25

La inteligencia artificial generativa (IA) ha luchado notoriamente para crear imágenes consistentes, a menudo interpretando mal detalles como los dedos y la simetría facial.Además, estos modelos pueden fallar por completo cuando se les solicita que generen imágenes en diferentes tamaños y resoluciones.

Rice research could make weird AI images a thing of the past — La imagen de la izquierda se generó mediante un método estándar, mientras que la imagen de la derecha fue generada por ElasticDiffusion.El mensaje de ambas imágenes era: "Foto de un gato atleta explicando su último escándalo en una conferencia de prensa a los periodistas".Crédito: Moayed Haji Ali/Universidad Rice

El nuevo método de los científicos informáticos de la Universidad Rice para generar imágenes con personal previamente capacitadodifusiónmodelos, una clase de modelos de IA generativos que "aprenden" agregando capa tras capa de ruido aleatorio a las imágenes en las que están entrenados y luego generan nuevas imágenes eliminando el ruido agregado, podrían ayudar a corregir estos problemas.

Moayed Haji Ali, estudiante de doctorado en informática de la Universidad Rice, describió el nuevo enfoque, llamado ElasticDiffusion, en un artículo revisado por pares presentado en el Instituto de Ingenieros Eléctricos y Electrónicos (IEEE).Conferencia 2024 sobre visión por computadora y reconocimiento de patrones (CVPR)en seattle.

"Los modelos de difusión como Stable Diffusion, Midjourney y DALL-E crean resultados impresionantes, generando imágenes bastante realistas y fotorrealistas", dijo Haji Ali."Pero tienen una debilidad: sólo pueden generar imágenes cuadradas. Entonces, en los casos en los que tienes diferentes relaciones de aspecto, como en un monitor o un reloj inteligente... ahí es donde estos modelos se vuelven problemáticos".

Si le dice a un modelo como Stable Diffusion que cree una imagen no cuadrada, digamos una relación de aspecto de 16:9, los elementos utilizados para construir la imagen generada se vuelven repetitivos.Esa repetición se muestra como deformidades de aspecto extraño en la imagen o en los sujetos de la imagen, como personas con seis dedos o un automóvil extrañamente alargado.

La forma en que se entrenan estos modelos también contribuye al problema.

"Si entrenas el modelo sólo con imágenes que tienen una determinada resolución, sólo podrán generar imágenes con esa resolución", dijo Vicente Ordóñez-Román, profesor asociado de ciencias de la computación que asesoró a Haji Ali en su trabajo junto a Guha.Balakrishnan, profesor asistente de ingeniería eléctrica e informática.

Ordóñez-Román explicó que este es un problema endémico de la IA conocido como sobreajuste, donde un modelo de IA se vuelve excesivamente bueno para generar datos similares a aquellos con los que fue entrenado, pero no puede desviarse mucho más allá de esos parámetros.

"Se podría resolver esto entrenando el modelo en una variedad más amplia de imágenes, pero es costoso y requiere enormes cantidades de potencia informática: cientos, tal vez incluso miles de unidades de procesamiento de gráficos", dijo Ordóñez-Román.

Según Haji Ali, el ruido digital utilizado por los modelos de difusión se puede traducir en una señal con dos tipos de datos: local y global.La señal local contiene información detallada a nivel de píxeles, como la forma de un ojo o la textura del pelaje de un perro.La señal global contiene más un contorno general de la imagen.

"Una de las razones por las que los modelos de difusión necesitan ayuda con relaciones de aspecto no cuadradas es que generalmente empaquetan información local y global", dijo Haji Ali, quien trabajó en la síntesis de movimiento en videos generados por IA antes de unirse al equipo de Ordóñez-Román.grupo de investigaciónen Rice para su Ph.D.estudios."Cuando el modelo intenta duplicar esos datos para tener en cuenta el espacio adicional en una imagen no cuadrada, se producen imperfecciones visuales".

El método ElasticDiffusion del artículo de Haji Ali adopta un enfoque diferente para crear una imagen.En lugar de empaquetar ambas señales juntas, ElasticDiffusion separa las señales locales y globales en rutas de generación condicionales e incondicionales.Resta el modelo condicional del modelo incondicional, obteniendo una puntuación que contiene información global de la imagen.

Después de eso, la ruta incondicional con el detalle local a nivel de píxel se aplica a la imagen en cuadrantes, completando los detalles un cuadrado a la vez.La información global (cuál debe ser la relación de aspecto de la imagen y cuál es la imagen (un perro, una persona corriendo, etc.)) permanece separada, por lo que no hay posibilidad de que la IA confunda las señales y repita los datos.El resultado es una imagen más limpia independientemente de la relación de aspecto que no necesita entrenamiento adicional.

"Este enfoque es un intento exitoso de aprovechar las representaciones intermedias del modelo para ampliarlas y obtener consistencia global", dijo Ordóñez-Román.

El único inconveniente de ElasticDiffusion en comparación con otros modelos de difusión es el tiempo.Actualmente, el método de Haji Ali tarda entre 6 y 9 veces más en crear una imagen.El objetivo es reducir eso al mismo tiempo de inferencia que otros modelos como Stable Diffusion o DALL-E.

"A donde espero que vaya esta investigación es a definir... por qué los modelos de difusión generan estas partes más repetitivas y no pueden adaptarse a estas relaciones de aspecto cambiantes y generar un marco que pueda adaptarse exactamente a cualquier relación de aspecto independientemente deel entrenamiento, al mismo tiempo de inferencia", dijo Haji Ali.

Más información:ElasticDiffusion: Generación de imágenes de tamaño arbitrario sin capacitación a través de la separación de contenido global-local, Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones 2024. Autores: Moayed Haji-Ali, Guha Balakrishnan y Vicente Ordóñez-Román,cvpr.thecvf.com/

Página del proyecto:elasticdiffusion.github.io/

Demostración del proyecto:replicate.com/moayedhajiali/elasticdiffusion

Código de proyecto:github.com/MoayedHajiAli/ElasticDiffusion-official

Citación:Una nueva investigación podría hacer que las extrañas imágenes de IA sean cosa del pasado (2024, 15 de septiembre)recuperado el 15 de septiembre de 2024de https://techxplore.com/news/2024-09-rice-weird-ai-images.html

Este documento está sujeto a derechos de autor.Aparte de cualquier trato justo con fines de estudio o investigación privados, noparte puede ser reproducida sin el permiso por escrito.El contenido se proporciona únicamente con fines informativos.

Véase también la versión en otros idiomas: English | 简中 | 正體 | 日本語 | 한국인 | हिंदी | Español