¿Endogámico, galimatías o simplemente ENOJADO?Aumentan las advertencias sobre los modelos de IA

2024-08-05 11:09:39

Cuando el año pasado el académico Jathan Sadowski buscó una analogía para describir cómo se deterioran los programas de IA, llegó al término "IA de los Habsburgo".

Artificial intelligence is used to develop all sorts of applications, including controlling robotic pets — La inteligencia artificial se utiliza para desarrollar todo tipo de aplicaciones, incluido el control de mascotas robóticas.

Cuando el año pasado el académico Jathan Sadowski buscó una analogía para describir cómo se deterioran los programas de IA, llegó al término "IA de los Habsburgo".

Los Habsburgo eran una de las casas reales más poderosas de Europa, pero secciones enteras de su linaje familiar colapsaron después de siglos de endogamia.

Estudios recientes han demostrado cómo los programas de inteligencia artificial que sustentan productos como ChatGPT sufren un colapso similar cuando reciben repetidamente sus propios datos.

"Creo que el término IA de los Habsburgo ha envejecido muy bien", dijo Sadowski a la AFP, afirmando que su acuñación "sólo se ha vuelto más relevante para la forma en que pensamos sobre los sistemas de IA".

La principal preocupación es que el contenido generado por IA pueda apoderarse de la web, lo que a su vez podría inutilizar los chatbots y los generadores de imágenes y hacer caer en picada a una industria de billones de dólares.

Pero otros expertos sostienen que el problema es exagerado o que puede solucionarse.

Y muchas empresas están entusiasmadas con el uso de lo que llamandatos sintéticospara entrenar programas de IA.Estos datos generados artificialmente se utilizan para aumentar o reemplazar los datos del mundo real.Es más barato que el contenido creado por humanos pero más predecible.

"La pregunta abierta para los investigadores y las empresas que construyen sistemas de IA es: ¿cuántos datos sintéticos son demasiados?", dijo Sadowski, profesor de tecnologías emergentes en la Universidad Monash de Australia.

'Enfermedad de las vacas locas'

La formación de programas de IA, conocidos en la industria como modelos de lenguaje grande (LLM), implica extraer grandes cantidades de texto o imágenes de Internet.

Esta información se divide en billones de pequeños fragmentos legibles por máquinas, conocidos como tokens.

Cuando se hace una pregunta, un programa como ChatGPT selecciona y ensambla tokens de manera que sudatos de entrenamientoindica que es la secuencia más probable que se ajuste a la consulta.

Pero incluso las mejores herramientas de IA generan falsedades y tonterías, y los críticos han expresado durante mucho tiempo su preocupación por lo que sucedería si un modelo se alimentara de sus propios resultados.

A finales de julio, un artículo en la revistaNaturalezatitulado "Los modelos de IA colapsan cuando se entrenan con datos generados recursivamente" resultó ser un pararrayos para la discusión.

los autoresdescribió cómo los modelos se descartaron rápidamenteelementos más raros en su conjunto de datos original y, comoNaturalezaSegún lo informado, los resultados degeneraron en "galimatías".

Una semana después, investigadores de las universidades Rice y Stanford publicaron un artículo titulado "Los modelos generativos autoconsumidos se vuelven locos" que llegó a una conclusión similar.

Probaron programas de IA que generan imágenes y demostraron que los resultados se vuelven más genéricos y están plagados de elementos indeseables a medida que agregan datos generados por IA al modelo subyacente.

Etiquetaron el colapso del modelo como "Trastorno de autofagia modelo" (MAD) y lo compararon conenfermedad de las vacas locas, una enfermedad mortal causada por alimentar a otras vacas con los restos de vacas muertas.

'Escenario apocalíptico'

A estos investigadores les preocupa que los textos, imágenes y videos generados por IA estén limpiando la web de datos utilizables creados por humanos.

"Un escenario apocalíptico es que, si no se controla durante muchas generaciones, la MAD podría envenenar elcalidad de los datosy la diversidad de todo Internet", dijo en un comunicado uno de los autores de la Universidad Rice, Richard Baraniuk.

Sin embargo, las cifras de la industria no se inmutan.

Anthropic y Hugging Face, dos líderes en este campo que se enorgullecen de adoptar un enfoque ético en la tecnología, dijeron a la AFP que utilizaron datos generados por IA para afinar o filtrar sus conjuntos de datos.

Anton Lozhkov, ingeniero de aprendizaje automático en Hugging Face, dijo que el artículo de Nature ofrecía una perspectiva teórica interesante, pero que su escenario de desastre no era realista.

"El entrenamiento en múltiples rondas de datos sintéticos simplemente no se realiza en la realidad", afirmó.

Sin embargo, dijo que los investigadores estaban tan frustrados como todos los demás con el estado de Internet.

"Una gran parte de Internet es basura", dijo, añadiendo que Hugging Face ya ha hecho grandes esfuerzos para limpiar los datos, a veces desechando hasta el 90 por ciento.

Esperaba que los usuarios de la web ayudaran a limpiar Internet simplemente no interactuando con el contenido generado.

"Creo firmemente que los humanos verán los efectos y captarán los datos generados mucho antes que los modelos", dijo.

Citación:¿Endogámico, galimatías o simplemente ENOJADO?Aumentan las advertencias sobre los modelos de IA (2024, 5 de agosto)recuperado el 5 de agosto de 2024de https://techxplore.com/news/2024-08-inbred-gibberish-mad-ai.html

Este documento está sujeto a derechos de autor.Aparte de cualquier trato justo con fines de estudio o investigación privados, noparte puede ser reproducida sin el permiso por escrito.El contenido se proporciona únicamente con fines informativos.

Véase también la versión en otros idiomas: English | 简中 | 正體 | 日本語 | 한국인 | हिंदी | Español