Breaking MAD: Generative AI could break the internet
Los modelos de inteligencia artificial generativa (IA) entrenados con datos sintéticos generan resultados que se ven progresivamente estropeados por artefactos.En este ejemplo, los investigadores entrenaron una sucesión de modelos generativos StyleGAN-2 utilizando datos totalmente sintéticos.Cada una de las seis columnas de imágenes muestra un par de ejemplos generados por el modelo de primera, tercera, quinta y novena generación, respectivamente.Con cada iteración del bucle, los artefactos sombreados se amplifican progresivamente.Crédito: Grupo de Procesamiento de Señales Digitales/Universidad de Rice

Los modelos de inteligencia artificial (IA) generativa como GPT-4o de OpenAI o Stable Diffusion de Stability AI son sorprendentemente capaces de crear nuevos textos, códigos, imágenes y videos.Sin embargo, entrenarlos requiere cantidades tan grandes de datos que los desarrolladores ya se están enfrentando a limitaciones de suministro y pronto podrían agotar por completo los recursos de capacitación.

En este contexto de escasez de datos, utilizarentrenar generaciones futuras de modelos de IA puede parecer una opción atractiva para las grandes tecnologías por varias razones, entre ellas: los datos sintetizados por IA son más baratos que los datos del mundo real y prácticamente ilimitados en términos de suministro;plantea menos riesgos para la privacidad (como en el caso de los datos médicos);y en algunos casos, los datos sintéticos pueden incluso mejorar el rendimiento de la IA.

Sin embargo, un trabajo reciente del grupo de Procesamiento de Señales Digitales de la Universidad Rice ha descubierto que una dieta de datos sintéticos puede tener impactos negativos significativos en las iteraciones futuras de los modelos generativos de IA.

"Los problemas surgen cuando este entrenamiento de datos sintéticos se repite inevitablemente, formando una especie de circuito de retroalimentación, lo que llamamos un circuito autofago o 'autoconsumidor'", dijo Richard Baraniuk, profesor de electricidad C. Sidney Burrus de Rice.e Ingeniería Informática."Nuestro grupo ha trabajado extensamente en estos circuitos de retroalimentación, y la mala noticia es que incluso después de unas pocas generaciones de ese entrenamiento, los nuevos modelos pueden corromperse irreparablemente. Esto ha sido llamado "colapso del modelo" por algunos (más recientemente por colegas).en el campo en el contexto de grandes modelos de lenguaje (LLM, por sus siglas en inglés), sin embargo, encontramos más apropiado el término 'Trastorno de autofagia modelo' (MAD, por analogía con la enfermedad de las vacas locas).

Breaking MAD: Generative AI could break the internet
Richard Baraniuk y su equipo de la Universidad Rice estudiaron tres variaciones de ciclos de entrenamiento autónomos diseñados para proporcionar una representación realista de cómo se combinan datos reales y sintéticos en conjuntos de datos de entrenamiento para modelos generativos.El esquema ilustra los tres escenarios de entrenamiento, es decir, un bucle completamente sintético, un bucle de aumento sintético (sintético + conjunto fijo de datos reales) y un bucle de datos nuevos (sintético + nuevo conjunto de datos reales).Crédito: Grupo de Procesamiento de Señales Digitales/Universidad de Rice

La enfermedad de las vacas locas es una enfermedad neurodegenerativa mortal que afecta a las vacas y tiene un equivalente humano causada por el consumo de carne infectada.Un brote importante en los años 1980 y 1990 llamó la atención sobre el hecho de queProliferó como resultado de la práctica de alimentar a las vacas con los restos procesados ​​de sus pares sacrificadas (de ahí el término "autofagia", del griego auto, que significa "yo" y fagia, "comer").

"Capturamos nuestros hallazgos sobre MADness en un artículo presentado en mayo en laConferencia Internacional sobre Representaciones del Aprendizaje (ICLR)", dijo Baraniuk.

El estudio, titulado "Los modelos generativos de autoconsumo se vuelven locos," es el primer trabajo revisado por pares sobre autofagia de IA y se centra en modelos de imágenes generativas como el popular DALL·E 3, Midjourney y Stable Diffusion.

"Elegimos trabajar en modelos visuales de IA para resaltar mejor los inconvenientes del entrenamiento autófago, pero los mismos problemas de corrupción de las vacas locas ocurren con los LLM, como han señalado otros grupos", dijo Baraniuk.

Breaking MAD: Generative AI could break the internet
Transformación progresiva de un conjunto de datos que consta de números del 1 al 9 en 20 iteraciones del modelo de un bucle totalmente sintético sin sesgo de muestreo (panel superior) y la correspondiente representación visual de la dinámica del modo de datos para datos reales (rojo) y sintéticos (verde) (panel inferior).).En ausencia de sesgo de muestreo, los modos de datos sintéticos se separan de los modos de datos reales y se fusionan.Esto se traduce en un rápido deterioro de los resultados del modelo: si todos los números son completamente legibles en la generación 1 (columna más a la izquierda, panel superior), en la generación 20 todas las imágenes se han vuelto ilegibles (columna más a la derecha, panel superior).Crédito: Grupo de Procesamiento de Señales Digitales/Universidad de Rice

Internet suele ser la fuente de los conjuntos de datos de entrenamiento de los modelos generativos de IA, por lo que a medida que los datos sintéticos proliferan en línea, es probable que surjan bucles de autoconsumo con cada nueva generación de un modelo.Para obtener información sobre diferentes escenarios de cómo podría desarrollarse esto, Baraniuk y su equipo estudiaron tres variaciones de ciclos de entrenamiento autónomos diseñados para proporcionar una representación realista de cómo se combinan los datos reales y sintéticos en conjuntos de datos de entrenamiento para modelos generativos:

  • Bucle totalmente sintético: las generaciones sucesivas de un modelo generativo fueron alimentadas con una dieta de datos totalmente sintéticos tomados de la producción de generaciones anteriores.
  • Bucle de aumento sintético: el conjunto de datos de entrenamiento para cada generación del modelo incluía una combinación de datos sintéticos muestreados de generaciones anteriores y un conjunto fijo de datos de entrenamiento reales.
  • Bucle de datos nuevos: cada unodel modelo se entrena con una combinación de datos sintéticos de generaciones anteriores y un nuevo conjunto de datos reales.datos.
Breaking MAD: Generative AI could break the internet
Transformación progresiva de un conjunto de datos que consta de números del 1 al 9 en 20 iteraciones de modelo de un bucle totalmente sintético con sesgo de muestreo (panel superior) y la correspondiente representación visual de la dinámica del modo de datos para datos reales (rojo) y sintéticos (verde) (panel inferior).).Con el sesgo de muestreo, los modos de datos sintéticos aún se separan de los modos de datos reales, pero, en lugar de fusionarse, colapsan alrededor de imágenes individuales de alta calidad.Esto se traduce en una preservación prolongada de datos de mayor calidad a lo largo de las iteraciones: todos menos un par de números siguen siendo legibles en la generación 20 (columna más a la derecha, panel superior).Si bien el sesgo de muestreo preserva la calidad de los datos por más tiempo, esto se produce a expensas de la diversidad de los datos.Crédito: Grupo de Procesamiento de Señales Digitales/Universidad de Rice

Las iteraciones progresivas de los bucles revelaron que con el tiempo y en ausencia de suficientes datos reales nuevos, los modelos generarían resultados cada vez más deformados, carentes de calidad, diversidad o ambas.En otras palabras, cuantos más datos nuevos, más saludable será la IA.

Las comparaciones lado a lado de conjuntos de datos de imágenes resultantes de generaciones sucesivas de un modelo pintan un panorama inquietante de los futuros potenciales de la IA.Los conjuntos de datos que consisten en rostros humanos están cada vez más surcados de cicatrices en forma de cuadrícula (lo que los autores llaman "artefactos generativos") o se parecen cada vez más a la misma persona.Los conjuntos de datos que consisten en números se transforman en garabatos indescifrables.

"Nuestros análisis teóricos y empíricos nos han permitido extrapolar lo que podría suceder a medida que los modelos generativos se vuelvan ubicuos y entrenen modelos futuros en bucles de autoconsumo", dijo Baraniuk."Algunas ramificaciones son claras: sin suficientes datos reales y frescos, los futuros modelos generativos están condenados a la locura".

Para hacer estas simulaciones aún más realistas, los investigadores introdujeron un parámetro de sesgo de muestreo para tener en cuenta la "selección selectiva": la tendencia de los usuarios a favorecer la calidad de los datos sobre la diversidad, es decir, sacrificar la variedad en los tipos de imágenes y textos en unconjunto de datos para imágenes o textos que se ven o suenan bien.

Breaking MAD: Generative AI could break the internet
El incentivo para elegir cuidadosamente (la tendencia de los usuarios a favorecer la calidad de los datos sobre la diversidad) es que la calidad de los datos se conserva durante un mayor número de iteraciones del modelo, pero esto se produce a expensas de una disminución aún más pronunciada de la diversidad.En la imagen se muestran resultados de imágenes de muestra de un modelo de primera, tercera y quinta generación de bucle totalmente sintético con parámetro de sesgo de muestreo.Con cada iteración, el conjunto de datos se vuelve cada vez más homogéneo.Crédito: Grupo de Procesamiento de Señales Digitales/Universidad de Rice

El incentivo para elegir cuidadosamente es que la calidad de los datos se conserva en un mayor número de iteraciones del modelo, pero esto se produce a expensas de una disminución aún más pronunciada de la diversidad.

"Un escenario apocalíptico es que, si no se controla durante muchas generaciones, MAD podría envenenar la calidad y la diversidad de los datos de todo Internet", dijo Baraniuk."A falta de esto, parece inevitable que surjan consecuencias no deseadas hasta ahora invisibles de la autofagia de la IA, incluso en el corto plazo".

Además de Baraniuk, los autores del estudio incluyen a Rice Ph.D.los estudiantes Sina Alemohammad;Josué Casco-Rodríguez;Ahmed Imtiaz Humayun;Hossein Babaei;Doctorado en arroz.el ex alumno Lorenzo Luzi;Doctorado en arroz.el ex alumno y actual estudiante postdoctoral de Stanford, Daniel LeJeune;y el becario postdoctoral de Simons, Ali Siahkoohi.

Citación:Breaking MAD: La IA generativa podría romper Internet (30 de julio de 2024)recuperado el 30 de julio de 2024de https://techxplore.com/news/2024-07-mad-generative-ai-internet.html

Este documento está sujeto a derechos de autor.Aparte de cualquier trato justo con fines de estudio o investigación privados, noparte puede ser reproducida sin el permiso por escrito.El contenido se proporciona únicamente con fines informativos.