¿Las habilidades emergentes en grandes modelos lingüísticos son sólo aprendizaje en contexto?

2024-08-12 14:02:31

Según un nuevo estudio dirigido por TU Darmstadt, los modelos de IA como ChatGPT son aparentemente menos capaces de aprender de forma independiente de lo que se suponía anteriormente.

large language models — Crédito: Pixabay/CC0 Dominio público

Según un nuevo estudio dirigido por TU Darmstadt, los modelos de IA como ChatGPT son aparentemente menos capaces de aprender de forma independiente de lo que se suponía anteriormente.

Según el estudio, no hay evidencia de que lo que se conoce comograndes modelos de lenguaje(LLM) están comenzando a desarrollar un comportamiento "inteligente" general que les permitiría proceder de manera planificada o intuitiva o pensar de manera compleja.

El estudio, que ha sidopublicadoen elarXivservidor de preimpresión, se presentará en agosto en la conferencia anual de la Asociación de Lingüística Computacional (ACL) en Bangkok, la mayor conferencia internacional sobre procesamiento automático del lenguaje.

Elinvestigaciónse centra en saltos imprevistos y repentinos en el desempeño de los modelos lingüísticos, a los que se hace referencia como "habilidades emergentes".Después de que se introdujeron los modelos, los científicos descubrieron que se volvían más poderosos a medida que aumentaba el tamaño y la creciente cantidad de datos con los que fueron entrenados (escalado).

A medida que las herramientas se ampliaron, pudieron resolver una mayor cantidad de tareas basadas en el lenguaje, por ejemplo, reconocernoticias falsaso sacar conclusiones lógicas.

Por un lado, esto generó esperanzas de que una mayor ampliación mejoraría aún más los modelos.Por otro lado, también existía la preocupación de que estas habilidades pudieran volverse peligrosas, ya que los LLM podrían volverse independientes y posiblemente escapar del control humano.En respuesta, se introdujeron leyes sobre IA en todo el mundo, incluso en la Unión Europea y Estados Unidos.

Sin embargo, los autores del presente estudio han llegado a la conclusión de que no hay pruebas del presunto desarrollo del pensamiento diferenciado en los modelos.En cambio, los LLM adquirieron la habilidad superficial de seguir instrucciones relativamente simples, como demostraron los investigadores.Los sistemas todavía están muy lejos de lo que los humanos son capaces de hacer.

El estudio fue dirigido por la profesora de informática de la TU Iryna Gurevych y su colega el Dr. Harish Tayyar Madabushi de la Universidad de Bath en el Reino Unido.

"Sin embargo, nuestros resultados no significan que la IA no sea una amenaza en absoluto", afirmó Gurevych.

"Más bien, mostramos que la supuesta aparición de habilidades de pensamiento complejas asociadas con amenazas específicas no está respaldada por evidencia y que, después de todo, podemos controlar muy bien el proceso de aprendizaje de los LLM. Por lo tanto, las investigaciones futuras deberían centrarse en otros riesgos que plantean los modelos,como su potencial para ser utilizado para generar noticias falsas".

¿Y qué significan los resultados para los usuarios de sistemas de inteligencia artificial como ChatGPT?"Probablemente sea un error confiar en un modelo de IA para interpretar y ejecutartareas complejassin ayuda", explica Gurevych, que dirige el Laboratorio de Procesamiento Ubicuo del Conocimiento (UKP) en el Departamento de Informática de la Universidad Técnica de Darmstadt.

"En lugar de ello, los usuarios deberían indicar explícitamente lo que deberían hacer los sistemas y, si es posible, dar ejemplos. Lo importante es que es probable que persista la tendencia de estos modelos a producir resultados que suenan plausibles pero falsos, lo que se conoce como confabulación,incluso si la calidad de los modelos ha mejorado dramáticamente en los últimos tiempos."

Más información:Sheng Lu et al, ¿Las habilidades emergentes en modelos de lenguaje grandes son solo aprendizaje en contexto?arXiv(2023).DOI: 10.48550/arxiv.2309.01809

Información de la revista: arXiv

Citación:¿Las habilidades emergentes en modelos lingüísticos grandes son sólo aprendizaje en contexto?(2024, 12 de agosto)recuperado el 12 de agosto de 2024de https://techxplore.com/news/2024-08-emergent-abilities-large-language-context.html

Este documento está sujeto a derechos de autor.Aparte de cualquier trato justo con fines de estudio o investigación privados, noparte puede ser reproducida sin el permiso por escrito.El contenido se proporciona únicamente con fines informativos.