Cómo un subcampo de la física condujo a avances en la IA y de ahí al Premio Nobel de este año

2024-10-09 21:55:54

John J. Hopfield y Geoffrey E. Hinton recibieron el Premio Nobel de Física el 8 de octubre de 2024 por su investigación sobre algoritmos de aprendizaje automático y redes neuronales que ayudan a las computadoras a aprender.Su trabajo ha sido fundamental en el desarrollo de teorías de redes neuronales que sustentan la inteligencia artificial generativa.

networks — Crédito: Pixabay/CC0 Dominio público

John J. HopfieldyGeoffrey E. Hintonrecibió el Premio Nobel de Física el 8 de octubre de 2024 por su investigación sobreAlgoritmos de aprendizaje automático y redes neuronales que ayudan a las computadoras a aprender..Su trabajo ha sido fundamental en el desarrollo de teorías de redes neuronales que sustentan la inteligencia artificial generativa.

Una red neuronal es unamodelo computacionalformado por capas de neuronas interconectadas.como elneuronas en tu cerebro, estas neuronas procesan y envían una información.Cada capa neuronal recibe un dato, lo procesa y pasa el resultado a la siguiente capa.Al final de la secuencia, la red ha procesado y refinado los datos para convertirlos en algo más útil.

Si bien puede parecer sorprendente que Hopfield y Hinton recibieran el premio de física por sus contribuciones a las redes neuronales, utilizadas en informática, su trabajo está profundamente arraigado en los principios de la física, particularmente en un subcampo llamadomecánica estadística.

Como computacionalcientífico de materialesMe emocionó ver que esta área de investigación fuera reconocida con el premio.El trabajo de Hopfield y Hinton nos ha permitido a mis colegas y a mí estudiar un proceso llamado aprendizaje generativo paraciencias de los materiales, un método que está detrás de muchas tecnologías populares como ChatGPT.

¿Qué es la mecánica estadística?

La mecánica estadística es una rama de la física que utiliza métodos estadísticos para explicar el comportamiento de sistemas formados por una gran cantidad de partículas.

En lugar de centrarse en partículas individuales, los investigadores utilizanmecánica estadísticaObserve el comportamiento colectivo de muchas partículas.Ver cómo actúan todos juntos ayuda a los investigadores a comprender las propiedades macroscópicas a gran escala del sistema, como la temperatura, la presión y la magnetización.

Por ejemplo,físico Ernst Isingdesarrolló un modelo de mecánica estadística para el magnetismo en la década de 1920.Considerando el magnetismo imaginado como el comportamiento colectivo deespines atómicosinteractuando con sus vecinos.

En el modelo de Ising, hay estados de energía más altos y más bajos para el sistema, y es más probable que el material exista en el estado de energía más bajo.

Una idea clave en la mecánica estadística es laDistribución Boltzmann, que cuantifica la probabilidad de que se produzca un estado determinado.Esta distribución describe la probabilidad de que un sistema se encuentre en un estado particular (como sólido, líquido o gaseoso) en función de su energía y temperatura.

Ising predijo exactamente la transición de fase de un imán utilizando la distribución de Boltzmann.Calculó la temperatura a la que el material pasaba de ser magnético a no magnético.

Los cambios de fase ocurren a temperaturas predecibles.El hielo se derrite hasta convertirse en agua a una temperatura específica porque la distribución de Boltzmann predice que cuando se calienta, lamoléculas de aguatienen más probabilidades de adoptar un estado desordenado (o líquido).

En los materiales, los átomos se organizan enestructuras cristalinas específicasque utilizan la menor cantidad de energía.Cuando hace frío, las moléculas de agua se congelan formando cristales de hielo con estados de baja energía.

De manera similar, en biología,Las proteínas se pliegan en formas de baja energía., que les permiten funcionar como anticuerpos específicos, como una cerradura y una llave, dirigidos a un virus.

Redes neuronales y mecánica estadística.

Fundamentalmente, todas las redes neuronales funcionan según un principio similar: minimizar la energía.Las redes neuronales utilizan este principio para resolver problemas informáticos.

Por ejemplo, imagina una imagen formada por píxeles donde solo puedes ver una parte de la imagen.Algunos píxeles son visibles, mientras que el resto están ocultos.Para determinar qué es la imagen, considere todas las formas posibles en que los píxeles ocultos podrían encajar con las piezas visibles.A partir de ahí, elegirías entre los que la mecánica estadística diría que son los estados más probables entre todas las opciones posibles.

Hopfield y Hinton desarrollaron una teoría de redes neuronales basada en la idea de la mecánica estadística.Al igual que Ising antes que ellos, que modeló la interacción colectiva de espines atómicos para resolver el problema de la fotografía con una red neuronal, Hopfield y Hinton imaginaron interacciones colectivas de píxeles.Representaron estos píxeles como neuronas.

Al igual que en física estadística, la energía de una imagen se refiere a la probabilidad de que exista una configuración particular de píxeles.Una red Hopfieldresolvería este problema encontrando las disposiciones de menor energía de los píxeles ocultos.

Sin embargo, a diferencia de la mecánica estadística, donde laenergíaestá determinada por interacciones atómicas conocidas: las redes neuronales aprenden estas energías a partir de los datos.

HintonPopularizó el desarrollo de una técnica llamada retropropagación..Esta técnica ayuda al modelo a determinar las energías de interacción entre estas neuronas, y este algoritmo sustenta gran parte del aprendizaje moderno de la IA.

La máquina de Boltzmann

Basándose en el trabajo de Hopfield, Hinton imaginó otra red neuronal, llamadamáquina de Boltzmann.Consta de neuronas visibles, que podemos observar, y neuronas ocultas, que ayudan a la red a aprender patrones complejos.

En una máquina de Boltzmann, puedes determinar la probabilidad de que la imagen se vea de cierta manera.Para calcular esta probabilidad, puede resumir todos los estados posibles en los que podrían estar los píxeles ocultos. Esto le da la probabilidad total de que los píxeles visibles estén en una disposición específica.

Mi grupo ha trabajado enImplementación de máquinas Boltzmann en computadoras cuánticas para el aprendizaje generativo.

En el aprendizaje generativo, la red aprende a generar nuevas muestras de datos que se asemejan a los datos que los investigadores alimentaron a la red para entrenarla.Por ejemplo, podría generar nuevas imágenes de números escritos a mano después de haber sido entrenado con imágenes similares.La red puede generarlos mediante muestreo de la distribución de probabilidad aprendida.

El aprendizaje generativo sustenta la IA moderna: es lo que permite la generación deArte, vídeos y texto con IA.

Hopfield y Hinton han influido significativamente en la investigación de la IA aprovechando herramientas de la física estadística.Su trabajo establece paralelismos entre cómo la naturaleza determina los estados físicos de un material y cómoredes neuronalespredecir la probabilidad de soluciones a problemas complejos de informática.

Este artículo se republica desdeLa conversaciónbajo una licencia Creative Commons.Lea elartículo original.

Citación:Cómo un subcampo de la física condujo a avances en la IA y de ahí al Premio Nobel de este año (9 de octubre de 2024)recuperado el 9 de octubre de 2024de https://techxplore.com/news/2024-10-subfield-physics-breakthroughs-ai-year.html

Este documento está sujeto a derechos de autor.Aparte de cualquier trato justo con fines de estudio o investigación privados, noparte puede ser reproducida sin el permiso por escrito.El contenido se proporciona únicamente con fines informativos.

Véase también la versión en otros idiomas: English | 简中 | 正體 | 日本語 | 한국인 | हिंदी | Español