Making it easier to verify an AI model's responses
Compare una descripción estándar generada por LLM (A) con una descripción SymGen (B, nuestra) de un juego de baloncesto, según las estadísticas del partido.SymGen imbuye tramos de texto generado (resaltados en azul) con referencias simbólicas a los datos de origen, lo que permite una verificación más sencilla: por ejemplo, al pasar el cursor sobre un tramo, el número "30" muestra una información sobre herramientas y un enlace (resaltado en amarillo) que indica el valor.está haciendo referencia.Crédito:arXiv(2023).DOI: 10.48550/arxiv.2311.09188

A pesar de sus impresionantes capacidades, los modelos de lenguaje grandes están lejos de ser perfectos.Estos modelos de inteligencia artificial a veces "alucinan" al generar información incorrecta o sin fundamento en respuesta a una consulta.

Debido a este problema de alucinaciones, las respuestas de un LLM a menudo son verificadas por verificadores de datos humanos, especialmente si un modelo se implementa en un entorno de alto riesgo como la atención médica o las finanzas.Sin embargo, los procesos de validación generalmente requieren que las personas lean documentos extensos citados por el modelo, una tarea tan onerosa y propensa a errores que puede impedir que algunos usuarios implementen modelos generativos de IA en primer lugar.

Para ayudar a los validadores humanos, los investigadores del MIT crearon un sistema fácil de usar que permite a las personas verificar las respuestas de un LLM mucho más rápidamente.Con esta herramienta, llamada SymGen, un LLM genera respuestas con citas que apuntan directamente al lugar en un documento fuente, como una celda determinada en una base de datos.

Los usuarios pasan el cursor sobre las partes resaltadas de su respuesta de texto para ver los datos que utilizó el modelo para generar esa palabra o frase específica.Al mismo tiempo, las partes no resaltadas muestran a los usuarios qué frases necesitan atención adicional para verificar y verificar.

"Le damos a las personas la capacidad de centrarse selectivamente en partes del texto que les preocupan más. Al final, SymGen puede brindarles a las personas una mayor confianza en las respuestas de un modelo porque pueden observar más de cerca fácilmente para asegurarse de que la información sea correcta.verificado", dice Shannon Shen, unay estudiante de posgrado en ciencias de la computación y coautor principal de un artículo sobre SymGen, que espublicadoen elarXivservidor de preimpresión.

A través de un estudio de usuarios, Shen y sus colaboradores descubrieron que SymGen aceleró el tiempo de verificación en aproximadamente un 20%, en comparación con los procedimientos manuales.Al hacer que sea más rápido y fácil para los humanos validar los resultados del modelo, SymGen podría ayudar a las personas a identificar errores en los LLM implementados en una variedad de situaciones del mundo real, desde generar notas clínicas hasta resumir informes de mercados financieros.

A Shen se unen en el artículo el coautor principal y compañero estudiante graduado de EECS, Lucas Torroba Hennigen;Aniruddha "Ani" Nrusimha, estudiante de posgrado de EECS;Bernhard Gapp, presidente de Good Data Initiative;y los autores principales David Sontag, profesor de EECS, miembro de la Clínica Jameel del MIT y líder del Grupo Clínico de Aprendizaje Automático del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL);y Yoon Kim, profesor asistente de EECS y miembro de CSAIL.La investigación se presentó recientemente en la Conferencia sobre Modelado del Lenguaje.

Referencias simbólicas

Para ayudar en la validación, muchos LLM están diseñados para generar citas, que apuntan a documentos externos, junto con sus respuestas basadas en el idioma para que los usuarios puedan verificarlas.Sin embargo, estos sistemas de verificación generalmente se diseñan como una ocurrencia tardía, sin considerar el esfuerzo que requiere la gente para examinar numerosas citas, dice Shen.

"La IA generativa tiene como objetivo reducir el tiempo del usuario para completar una tarea. Si necesita pasar horas leyendo todos estos documentos para verificar que el modelo dice algo razonable, entonces es menos útil tener las generaciones en la práctica", dice Shen.

Los investigadores abordaron el problema de la validación desde la perspectiva de los humanos que harán el trabajo.

Un usuario de SymGen primero proporciona al LLM datos a los que puede hacer referencia en su respuesta, como una tabla que contiene estadísticas de un partido de baloncesto.Luego, en lugar de pedirle inmediatamente al modelo que complete una tarea, como generar un resumen del juego a partir de esos datos, los investigadores realizan un paso intermedio.Impulsan al modelo a generar su respuesta en forma simbólica.

Con este mensaje, cada vez que el modelo quiera citar palabras en su respuesta, debe escribir la celda específica de la tabla de datos que contiene la información a la que hace referencia.Por ejemplo, si el modelo quiere citar la frase "Portland Trailblazers" en su respuesta, reemplazaría ese texto con el nombre de la celda en la tabla de datos que contiene esas palabras.

"Debido a que tenemos este paso intermedio que tiene el texto en un formato simbólico, podemos tener referencias muy detalladas. Podemos decir, para cada tramo de texto en la salida, este es exactamente el lugar de los datos que corresponde", dice Hennigen.

Luego, SymGen resuelve cada referencia utilizando una herramienta basada en reglas que copia el texto correspondiente de la tabla de datos en la respuesta del modelo.

"De esta manera, sabemos que es una copia palabra por palabra, por lo que sabemos que no habrá ningún error en la parte del texto que corresponde a la variable de datos real", añade Shen.

Simplificación de la validación

El modelo puede crear respuestas simbólicas debido a cómo está entrenado.Los grandes modelos de lenguaje reciben una gran cantidad de datos de Internet, y algunos datos se registran en un "formato de marcador de posición", donde los códigos reemplazan los valores reales.

Cuando SymGen solicita al modelo que genere una respuesta simbólica, utiliza una estructura similar."Diseñamos el mensaje de una manera específica para aprovechar las capacidades del LLM", añade Shen.

Durante un estudio de usuarios, la mayoría de los participantes dijeron que SymGen facilitaba la verificación del texto generado por LLM.Pudieron validar las respuestas del modelo aproximadamente un 20% más rápido que si usaran métodos estándar.

Sin embargo, SymGen está limitado por la calidad de los datos de origen.El LLM podría citar una variable incorrecta y un verificador humano podría no darse cuenta.Además, el usuario debe tener datos de origen en un formato estructurado, como una tabla, para introducirlos en SymGen.Por el momento, el sistema sólo funciona con datos tabulares.

En el futuro, los investigadores están mejorando SymGen para que pueda manejar texto arbitrario y otras formas de datos.Con esa capacidad, podría ayudar a validar partes de resúmenes de documentos legales generados por IA, por ejemplo.También planean probar SymGen con médicos para estudiar cómo podría identificar errores en los resúmenes clínicos generados por IA.

Más información:Lucas Torroba Hennigen et al, Hacia una generación de texto verificable con referencias simbólicas,arXiv(2023).DOI: 10.48550/arxiv.2311.09188

Información de la revista: arXiv

Esta historia se republica por cortesía de MIT News (web.mit.edu/newsoffice/), un sitio popular que cubre noticias sobre investigación, innovación y enseñanza del MIT.

Citación:Un sistema fácil de usar facilita la verificación de las respuestas de un modelo de IA (21 de octubre de 2024)recuperado el 21 de octubre de 2024de https://techxplore.com/news/2024-10-user-friendly-easier-ai-responses.html

Este documento está sujeto a derechos de autor.Aparte de cualquier trato justo con fines de estudio o investigación privados, noparte puede ser reproducida sin el permiso por escrito.El contenido se proporciona únicamente con fines informativos.