As LLMs grow bigger, they're more likely to give wrong answers than admit ignorance
Realización de una selección de modelos GPT y LLaMA con dificultad creciente.Crédito:Naturaleza(2024).DOI: 10.1038/s41586-024-07930-y

Un equipo de investigadores de IA de la Universitat Politècnica de València, en España, ha descubierto que a medida que los LLM (Large Language Models) populares crecen y se vuelven más sofisticados, es menos probable que admitan ante un usuario que no conocen unrespuesta.

en su estudiopublicadoen el diarioNaturaleza, el grupo probó lo últimode tres de los chatbots de IA más populares con respecto a sus respuestas,y qué tan buenos son los usuarios para detectar respuestas incorrectas.

A medida que los LLM se han generalizado, los usuarios se han acostumbrado a utilizarlos para escribir artículos, poemas o canciones y resolvery otras tareas, y la cuestión de la precisión se ha convertido en un problema mayor.En este nuevo estudio, los investigadores se preguntaron si los LLM más populares se están volviendo más precisos con cada nueva actualización y qué hacen cuando se equivocan.

Para probar la precisión de tres de los LLM más populares, BLOOM, LLaMA y GPT, el grupo les planteó miles de preguntas y comparó las respuestas que recibieron con las respuestas de versiones anteriores a las mismas preguntas.

También variaron los temas, incluidas matemáticas, ciencias, anagramas y geografía, y la capacidad de los LLM para generar texto o realizar acciones como ordenar una lista.Para todas las preguntas, primero asignaron un grado de dificultad.

Descubrieron que con cada nueva iteración de un chatbot, la precisión mejoraba en general.También descubrieron que a medida que las preguntas se hacían más difíciles, la precisión disminuía, como se esperaba.Pero también descubrieron que a medida que los LLM crecían y se hacían más sofisticados, tendían a ser menos abiertos acerca de su propia capacidad para responder una pregunta correctamente.

En versiones anteriores, la mayoría de los LLM respondían diciéndoles a los usuarios que no podían encontrar las respuestas o que necesitaban más información.En las versiones más nuevas, era más probable que los LLM adivinaran, lo que generó más respuestas en general, tanto correctas como incorrectas.También descubrieron que todos los LLM ocasionalmente daban respuestas incorrectas incluso a preguntas fáciles, lo que sugiere que todavía no son confiables.

Luego, el equipo de investigación pidió a los voluntarios que calificaran las respuestas de la primera parte del estudio como correctas o incorrectas y descubrió que la mayoría tenía dificultades para detectar respuestas incorrectas.

Más información:Lexin Zhou et al, Los modelos de lenguaje más grandes e instructivos se vuelven menos confiables,Naturaleza(2024).DOI: 10.1038/s41586-024-07930-y

© 2024 Red Ciencia X

Citación:A medida que los LLM crecen, es más probable que den respuestas incorrectas que admitan ignorancia (2024, 27 de septiembre)recuperado el 27 de septiembre de 2024de https://techxplore.com/news/2024-09-llms-bigger-theyre-wrong.html

Este documento está sujeto a derechos de autor.Aparte de cualquier trato justo con fines de estudio o investigación privados, noparte puede ser reproducida sin el permiso por escrito.El contenido se proporciona únicamente con fines informativos.