Algorithm helps enhance LLM collaboration for smarter, more efficient solutions
"Co-LLM" utiliza un modelo de lenguaje grande de propósito general para comenzar a responder a un mensaje, con una "variable de cambio" que interviene en ciertas palabras para solicitar una respuesta más precisa del modelo experto.Crédito: Alex Shipps/MIT CSAIL

¿Alguna vez te han hecho una pregunta cuya respuesta solo sabías parte?Para dar una respuesta más informada, lo mejor sería llamar a un amigo que tenga más conocimientos sobre el tema.

Este proceso colaborativo también puede ayudar(LLM) mejoran su precisión.Aún así, ha sido difícil enseñar a los LLM a reconocer cuándo deben colaborar con otro modelo en una respuesta.En lugar de utilizar fórmulas complejas o grandes cantidades de datos etiquetados para explicar dónde deberían funcionar juntos los modelos, los investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT han imaginado un enfoque más orgánico.

Su, llamado "Co-LLM", puede combinar un LLM básico de propósito general con un modelo más especializado y ayudarlos a trabajar juntos.Mientras el primero elabora una respuesta, Co-LLM revisa cada palabra (o token) dentro de su respuesta para ver dónde puede solicitar una respuesta más precisa del modelo experto.Este proceso conduce a respuestas más precisas a cuestiones como indicaciones médicas y problemas de matemáticas y razonamiento.Dado que el modelo experto no es necesario en cada iteración, esto también conduce a una generación de respuestas más eficiente.

Para decidir cuándo un modelo base necesita ayuda de un modelo experto, el marco utiliza el aprendizaje automático para entrenar una "variable de cambio", o una herramienta que puede indicar la competencia de cada palabra dentro de las respuestas de los dos LLM.El switch es como un director de proyecto que encuentra áreas en las que debería llamar a un especialista.

Si le pidiera al Co-LLM que nombrara algunos ejemplos de especies de osos extintas, por ejemplo, dos modelos redactarían respuestas juntas.El LLM de propósito general comienza a elaborar una respuesta, con la variable de cambio interviniendo en las partes donde puede insertar una mejor ficha del modelo experto, como agregar el año en que se extinguió la especie de oso.

"Con Co-LLM, básicamente estamos capacitando a un LLM de propósito general para que 'llame' a un modelo experto cuando sea necesario", dice Shannon Shen, Ph.D.estudiante eny ciencias de la computación y afiliado de CSAIL que es el autor principal de un nuevo artículo sobre este enfoque.Los hallazgos sonpublicadoen elarXivservidor de preimpresión.

"Utilizamos datos de dominios específicos para enseñarle al modelo base la experiencia de su contraparte en áreas como tareas biomédicas y preguntas de matemáticas y razonamiento. Este proceso encuentra automáticamente las partes de los datos que son difíciles de generar para el modelo base, y luego le indicael modelo base para cambiar al LLM experto, que fue entrenado previamente con datos de un campo similar. El modelo de propósito general proporciona la generación de "andamios" y, cuando recurre al LLM especializado, solicita al experto que genere los tokens deseados.Nuestros hallazgos indican que los LLM aprenden patrones de colaboración de forma orgánica, de forma similar a cómo los humanos reconocen cuándo llamar a un experto para que complete los espacios en blanco".

Una combinación de flexibilidad y factibilidad

Imagínese pedirle a un LLM de propósito general que nombre los ingredientes de un medicamento recetado específico.Podría responder incorrectamente, necesitando la experiencia de una marca especializada.

Para mostrar la flexibilidad de Co-LLM, los investigadores utilizaron datos como elBioASQconjunto médico para combinar un LLM básico con LLM expertos en diferentes dominios, como elmodelo meditron, que está previamente entrenado con datos médicos no etiquetados.Esto permitió que el algoritmo ayudara a responder las consultas que normalmente recibiría un experto biomédico, como nombrar los mecanismos que causan una enfermedad en particular.

Por ejemplo, si le pidió a un simple LLM que nombrara los ingredientes de un medicamento recetado específico, es posible que responda incorrectamente.Con la experiencia adicional de un modelo que se especializa en datos biomédicos, obtendría una respuesta más precisa.Co-LLM también alerta a los usuarios dónde verificar las respuestas.

Otro ejemplo del aumento del rendimiento de Co-LLM: cuando se le asigna la tarea de resolver un problema matemático como "un3· un2si a=5", el modelo de propósito general calculó incorrectamente que la respuesta era 125. Mientras Co-LLM entrenaba el modelo para colaborar más con un gran LLM de matemáticas llamado Llemma, juntos determinaron que la solución correcta era 3125.

El Co-LLM dio respuestas más precisas que los LLM simples ajustados y los modelos especializados no ajustados que trabajan de forma independiente.Co-LLM puede guiar dos modelos que se entrenaron de manera diferente para que funcionen juntos, mientras que otros enfoques de colaboración de LLM efectivos, como "Proxy Tuning", necesitan que todos sus modelos componentes se entrenen de manera similar.Además, esta línea de base requiere que cada modelo se utilice simultáneamente para producir el, mientras que el algoritmo del MIT simplemente activa su modelo experto para tokens particulares, lo que lleva a una generación más eficiente.

Cuando preguntarle al experto

El algoritmo de los investigadores del MIT destaca que imitar más de cerca el trabajo en equipo humano puede aumentar la precisión en la colaboración de varios LLM.Para elevar aún más su precisión fáctica, el equipo puede recurrir a la autocorrección humana: están considerando un enfoque de aplazamiento más sólido que pueda retroceder cuando el modelo experto no dé una respuesta correcta.Esta actualización permitiría a Co-LLM corregir el rumbo para que el algoritmo aún pueda dar una respuesta satisfactoria.

Al equipo también le gustaría actualizar elmodelo (entrenando únicamente el modelo base) cuando haya nueva información disponible, manteniendo las respuestas lo más actualizadas posible.Esto permitiría a Co-LLM combinar la información más actualizada con un fuerte poder de razonamiento.Con el tiempo, el modelo podría ayudar con los documentos empresariales, utilizando la información más reciente que tiene para actualizarlos en consecuencia.Co-LLM también podría entrenar modelos pequeños y privados para que trabajen con un LLM más potente para mejorar los documentos que deben permanecer dentro del servidor.

"Co-LLM presenta un enfoque interesante para aprender a elegir entre dos modelos para mejorar la eficiencia y el rendimiento", dice Colin Raffel, profesor asociado de la Universidad de Toronto y director asociado de investigación del Vector Institute, que no participó en el estudio.investigación.

"Dado que las decisiones de enrutamiento se toman a nivel de token, Co-LLM proporciona una forma granular de diferir los pasos de generación difíciles a un modelo más potente. La combinación única de enrutamiento a nivel de token de modelo también proporciona una gran flexibilidad que métodos similaresfalta. Co-LLM contribuye a una importante línea de trabajo que tiene como objetivo desarrollar ecosistemas de modelos especializados para superar a los costosos sistemas monolíticos de IA".

Más información:Shannon Zejiang Shen et al, Aprender a decodificar de forma colaborativa con múltiples modelos lingüísticos,arXiv(2024).DOI: 10.48550/arxiv.2403.03870

Información de la revista: arXiv

Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/newsoffice/), un sitio popular que cubre noticias sobre investigación, innovación y enseñanza del MIT.

Citación:El nuevo algoritmo ayuda a mejorar la colaboración LLM para lograr soluciones más inteligentes y eficientes (2024, 16 de septiembre)recuperado el 16 de septiembre de 2024de https://techxplore.com/news/2024-09-algorithm-llm-collaboration-smarter-ficient.html

Este documento está sujeto a derechos de autor.Aparte de cualquier trato justo con fines de estudio o investigación privados, noparte puede ser reproducida sin el permiso por escrito.El contenido se proporciona únicamente con fines informativos.