Leveraging language models for fusion energy research
Los investigadores han aprovechado el poder de los grandes modelos lingüísticos para ayudarles a responder preguntas sobre la investigación de la energía de fusión.Crédito: Parachoques DeJesus;Texto cortesía de los investigadores/Universidad de Princeton.

Desde el advenimiento de la investigación sobre la fusión, los científicos han publicado miles de documentos sobre el tema: artículos, actas de congresos e incluso registros escritos de experimentos anteriores en reactores de fusión en todo el mundo.Semejante fuente de información fácilmente tardaría toda una vida en leerse, y aún más en comprenderse.

durante un realexperimento en el Centro Nacional de Fusión DIII-D en San Diego, sin embargo, los investigadores solo tienen alrededor de 10 minutos entre pruebas para localizar esa información y usarla para hacer ajustes para la siguiente ejecución.

"Cada disparo de fusión finaliza en cuestión de segundos, y luego tienes un estrecho margen de tiempo antes del siguiente para solucionar cualquier problema y realizar los cambios necesarios", dijo Joseph Abbate, estudiante de doctorado de sexto año.candidato en el Programa de Princeton en Física del Plasma."Hay que tomar muchas decisiones en muy poco tiempo".

Abbate dijo que los investigadores que dirigen los experimentos trabajan rutinariamente hasta el último momento para afinar el siguiente experimento, y que los cambios a menudo se realizan sondeando la sala en busca de respuestas, una técnica que depende de la experiencia compartida de los operadores de turno ese día.

Ahora, científicos de la Universidad de Princeton, la Universidad Carnegie Mellon y el Instituto Tecnológico de Massachusetts (MIT) han aplicado grandes modelos de lenguaje (las fuerzas impulsoras detrás de herramientas como ChatGPT, Bard y LLaMA) para ayudar a los investigadores de fusión a examinar rápidamente resultados asombrosos.cantidades de datos para tomar decisiones más informadas sobre la marcha.El modelo permite a los usuarios identificar experimentos previos con características similares, proporcionar información sobre los sistemas de control de un dispositivo y devolver respuestas rápidas a preguntas sobre reactores de fusión y física del plasma.

"La investigación sobre fusión es, sorprendentemente, un escenario ideal para aplicarpara ayudar a los humanos", afirmó Viraj Mehta, candidato a doctorado en la Universidad Carnegie Mellon y primer autor de un artículo del taller que detalla el trabajo de los investigadores. "Por un lado, hay una gran cantidad de escritos disponibles sobre la fusión, en artículos, resúmenes y carteles, así como en las notas que los investigadores y operadores escriben después de cada prueba de fusión.Y por otro lado, necesitas tener acceso rápido a esa información.Ésa es un área donde estos modelos brillan".

Los investigadores sentaron las bases para su proyecto en un hackathon dirigido por estudiantes de posgrado celebrado en el campus de Princeton, durante el cual el equipo identificó ajustes que podrían hacer a los modelos de lenguaje existentes para aprovechar su poder para la investigación de la fusión.Estos modelos han saltado rápidamente a la fama por su capacidad de generar texto similar al humano después de haber sido entrenados con billones de palabras en Internet.

En sólo unas pocas tardes de codificación colaborativa, el equipo había sentado las bases de su trabajo mejorando el modelo de lenguaje grande sin procesar con un proceso conocido como generación aumentada de recuperación.La generación de recuperación aumentada permite complementar el conjunto de datos generales del modelo (que a menudo se basa en texto de Internet publicado antes de una fecha límite específica) con fuentes de datos adicionales para mejorar la precisión y la calidad de las respuestas del modelo.En este caso, los investigadores agregaron una base de datos de información que incluye registros de disparos y notas de experimentos anteriores en DIII-D, que no existen públicamente en Internet.

"En el hackathon, pudimos obtener comentarios instantáneos e inspiración de todo un grupo de personas para mantener el proyecto avanzando, lo que nos permitió superar cualquier obstáculo y terminar con una base sólida para nuestro modelo", dijo Abbate.

Con el modelo aumentado, los investigadores recibieron respuestas útiles a una variedad de indicaciones, desde información sobre cómo operar equipos específicos hasta cambios recomendados en los parámetros del dispositivo.Además, podrían estructurar su pregunta para exigir que el modelo haga referencia a los experimentos o artículos exactos a partir de los cuales generó sus respuestas, lo que aumentaría la credibilidad del modelo.

"Es como tener siempre contigo en la sala a otro ayudante que conoce cada ensayo de fusión que se ha llevado a cabo en el reactor y puede dar recomendaciones basadas en lo que ha sucedido en el pasado", dijo Abbate.

Si bien los investigadores sentaron las bases para su modelo en el hackathon, desde entonces han perfeccionado su trabajo para que pueda replicarse en instalaciones de fusión reales.Por ejemplo, Abbate está trabajando con operadores de DIII-D para explorar formas de implementar el marco en la instalación, de modo que todos los grupos de investigación que realicen experimentos allí puedan acceder a él.

El equipo también señaló que el marco se puede aplicar aque ya no están operativos, lo que permite a los científicos acceder a una fuente de información que de otro modo podría quedar olvidada a medida que los operadores de reactores se jubilen o se trasladen a otras instalaciones.El coautor Allen Wang, estudiante de posgrado del MIT, demostró que el mismo marco desarrollado para DIII-D podría adaptarse para Alcator C-Mod, un reactor de fusión del MIT que dejó de operar en 2016.

"Hay máquinas que han estado apagadas durante un par de décadas y no hay nadie que recuerde lo que sucedió durante esos experimentos", dijo el autor principal Egemen Kolemen, profesor asociado de ingeniería mecánica y aeroespacial y del Centro Andlinger para la Energía y el Medio Ambiente., así como físico investigador del personal del Laboratorio de Física del Plasma de Princeton (PPPL)."Pero al reunir todos los datos de texto y conectarlos a un modelo de lenguaje, podríamos volver a aprender información clave que puede ayudarnos a resolver un problema que enfrentamos con los futuros reactores".

Mehta añadió que el modelo también podría ser unpara investigadores de fusión más jóvenes que sirven como líderes de sesión en reactores, un papel que tanto él como Abbate han desempeñado varias veces durante sus carreras de posgrado.

"Al tener estoque puede hacer referencia a todos los artículos de fusión existentes, hemos creado una herramienta que permite a la próxima generación de investigadores acceder a la información mucho más fácilmente que antes", afirmó.

el papel, "Hacia los LLM como copilotos operativos para reactores de fusión", se presentó el 16 de diciembre en laNeuroIPS 2023Taller de IA para la ciencia.

Más información:Hacia los LLM como copilotos operativos de reactores de fusión.openreview.net/forum?id=yGVChrbJ4E

Citación:Aprovechamiento de modelos de lenguaje para la investigación de la energía de fusión (21 de diciembre de 2023)recuperado el 21 de diciembre de 2023de https://techxplore.com/news/2023-12-leveraging-language-fusion-energy.html

Este documento está sujeto a derechos de autor.Aparte de cualquier trato justo con fines de estudio o investigación privados, noparte puede ser reproducida sin el permiso por escrito.El contenido se proporciona únicamente con fines informativos.