Large language models are better at predicting what comes next than what came before, grammatically
Curvas de pérdida de validación para modelos FW y BW durante el entrenamiento.Consistentemente, la pérdida de BW es mayor que su contraparte de FW.Esto persiste durante el reinicio en caliente de la tasa de aprendizaje, lo que provoca un aumento en la pérdida.Crédito:arXiv(2024).DOI: 10.48550/arxiv.2401.17505

Los investigadores han descubierto que los modelos de lenguaje grande de IA, como GPT-4, son mejores para predecir lo que viene a continuación que lo que vino antes en una oración.Este efecto de "Flecha del Tiempo" podría remodelar nuestra comprensión de la estructura del lenguaje natural y la forma en que estos modelos lo entienden.

Los modelos de lenguajes grandes (LLM), como GPT-4, se han vuelto indispensables para tareas como generación de texto, codificación, operación de chatbots, traducción y otras.En esencia, los LLM funcionan prediciendo la siguiente palabra en una oración basándose en las palabras anteriores, una idea simple pero poderosa que impulsa gran parte de su funcionalidad.

Pero, ¿qué sucede cuando pedimos a estos modelos que predigan hacia atrás, que vayan "hacia atrás en el tiempo" y determinen la palabra anterior a partir de las siguientes?

La pregunta llevó al profesor Clément Hongler de la EPFL y a Jérémie Wenger de Goldsmiths (Londres) a explorar si los LLM podrían construir una historia al revés, empezando por el final.Trabajando con Vassilis Papadopoulos, un investigador de aprendizaje automático en la EPFL, descubrieron algo sorprendente: los LLM son consistentemente menos precisos al predecir hacia atrás que hacia adelante.

Una asimetría fundamental

Los investigadores probaron LLM de diferentes arquitecturas y tamaños, incluidos transformadores generativos preentrenados (GPT), unidades recurrentes cerradas (GRU) y redes neuronales de memoria a corto plazo (LSTM).Cada uno de ellos mostró el sesgo de la "flecha del tiempo", revelando una asimetría fundamental en cómo los LLM procesan el texto.

Hongler explica: "El descubrimiento muestra que, si bien los LLM son bastante buenos tanto para predecir la palabra siguiente como para la anterior en un texto, siempre son ligeramente peores hacia atrás que hacia adelante: su desempeño en la predicción de la palabra anterior es siempre un porcentaje peor".que en predecir la siguiente palabra. Este fenómeno es universal en todos los idiomas y se puede observar con cualquier modelo de lenguaje grande".

El trabajo también está conectado con el trabajo de Claude Shannon, el padre de la teoría de la información, en su obra fundamental.papel de 1951.Shannon exploró si predecir la siguiente letra de una secuencia era tan fácil como predecir la anterior.Descubrió que, aunque en teoría ambas tareas deberían ser igualmente difíciles, los humanos encontraban más desafiante la predicción hacia atrás, aunque la diferencia de rendimiento era mínima.

Agentes inteligentes

"En teoría, no debería haber diferencia entre las direcciones hacia adelante y hacia atrás, pero los LLM parecen ser de alguna manera sensibles a la dirección temporal en la que procesan el texto", dice Hongler."Curiosamente, esto está relacionado con una propiedad profunda de la estructura del lenguaje que sólo pudo descubrirse con la aparición deen los últimos cinco años."

Los investigadores vinculan esta propiedad con la presencia de agentes inteligentes que procesan información, lo que significa que podría usarse como herramienta para detectar inteligencia o vida, y ayudar a diseñar LLM más potentes.Finalmente, podría señalar nuevas direcciones en la búsqueda de larga data por comprender el paso del tiempo como un fenómeno emergente en la física.El

trabajarse publica en elarXivservidor de preimpresión.Del teatro a las matemáticas

El estudio en sí tiene una historia fascinante, que Hongler relata.

"En 2020, con Jérémie [Wenger], colaboramos con la escuela de teatro The Manufacture para crear un chatbot que actuaría junto a los actores para hacer improvisación; en la improvisación, a menudo quieres continuar la historia, sabiendo cuál es elEl final debería verse así.

"Para crear historias que terminaran de una manera específica, se nos ocurrió la idea de entrenar al chatbot para que hablara 'al revés', permitiéndole generar una historia teniendo en cuenta su final, por ejemplo, si el final es 'vivieron felices para siempre'.después', el modelo podía decirte cómo sucedió. Entonces, entrenamos a los modelos para que hicieran eso y notamos que eran un poco peores hacia atrás que hacia adelante.

"Con Vassilis [Papadopoulos], más tarde nos dimos cuenta de que se trataba de una característica profunda del lenguaje, y que era un fenómeno completamente nuevo y general, que tiene vínculos profundos con el paso del tiempo, la inteligencia y la noción de causalidad. Muy interesante paraalgún proyecto de teatro."

El entusiasmo de Hongler con este trabajo se debe en gran parte a las sorpresas inesperadas que surgieron en el camino."SoloMe di cuenta de que algo que empezó como un proyecto teatral terminaría dándonos nuevas herramientas para entender tantas cosas sobre el mundo".

Más información:Vassilis Papadopoulos et al, Flechas del tiempo para modelos de lenguaje grandes,arXiv(2024).DOI: 10.48550/arxiv.2401.17505

Información de la revista: arXiv

Citación:El efecto 'Flecha del tiempo': los LLM son mejores para predecir lo que viene después que lo que vino antes (2024, 16 de septiembre)recuperado el 16 de septiembre de 2024de https://techxplore.com/news/2024-09-arrow-effect-llms.html

Este documento está sujeto a derechos de autor.Aparte de cualquier trato justo con fines de estudio o investigación privados, noparte puede ser reproducida sin el permiso por escrito.El contenido se proporciona únicamente con fines informativos.