Grade School Math
Crédito: Deepak Gautam de Pexels

Un pequeño equipo de investigadores de IA de Microsoft informa que el modelo de lenguaje pequeño Orca-Math de la compañía supera a otros modelos más grandes en pruebas de matemáticas estandarizadas.El grupo ha publicado unpapelen elarXivservidor de preimpresión que describe sus pruebas de Orca-Math en el punto de referencia Grade School Math 8K (GSM8K) y cómo le fue en comparación con LLM conocidos.

Muchos LLM populares, como ChatGPT, son conocidos por sus impresionantes habilidades de conversación; menos conocido es que la mayoría de ellos también pueden resolver problemas matemáticos.Los investigadores de IA han puesto a prueba sus habilidades en este tipo de tareas enfrentándolas al GSM8K, un conjunto de datos de 8.500 problemas matemáticos escritos en la escuela primaria que requieren un razonamiento de varios pasos para resolverse, junto con sus respuestas correctas.

En este nuevo estudio, el equipo de investigación de Microsoft probó Orca-Math, una aplicación de inteligencia artificial desarrollada por otro equipo de Microsoft diseñada específicamente para abordar problemas matemáticos escritos, y comparó los resultados con modelos de inteligencia artificial más grandes.

Microsoft señala en suPublicación del blog de investigaciónque existe una gran diferencia entre los LLM populares como ChatGPT y Orca-Math.El primero es un modelo de lenguaje grande y el segundo es un modelo de lenguaje pequeño; la diferencia está en la cantidad de parámetros que se utilizan;normalmente en miles o unos pocos millones para los SLM, en lugar de los miles de millones o billones utilizados por los LLM.Otra diferencia es que, como su nombre indica, Orca-Math fue diseñado específicamente para resolverproblemas;por lo tanto, no se puede utilizar para mantener conversaciones o responder preguntas aleatorias.

Orca-Math es relativamente grande en comparación con otros SLM, con 7 mil millones de parámetros, pero aún es mucho más pequeño que la mayoría de los LLM más conocidos.Sin embargo, aún logró una puntuación del 86,81% en el GSM8k, cerca del GPT-4-0613, que obtuvo el 97,0%.A otros, como Llama-2, no les fue tan bien, con puntuaciones tan bajas como el 14,6%.

Microsoft revela que pudo obtener una puntuación tan alta utilizando datos de capacitación de mayor calidad que los disponibles para los LLM de uso general y debido a que utilizó un proceso de aprendizaje interactivo que el equipo de IA de Microsoft ha estado desarrollando, un proceso que mejora continuamente.resultados utilizando la retroalimentación de un profesor.El equipo de Microsoft concluye que los SLM pueden funcionar tan bien como los LLM en determinadas aplicaciones cuando se desarrollan en condiciones especializadas.

Más información:Arindam Mitra et al, Orca-Math: Liberar el potencial de los SLM en matemáticas de la escuela primaria,arXiv(2024).DOI: 10.48550/arxiv.2402.14830

Orca-Matemáticas:www.microsoft.com/en-us/researâ¦odel-specialization/
twitter.com/Arindam1408/status/1764761895473762738

Información de la revista: arXiv

© 2024 Red Ciencia X

Citación:El modelo de lenguaje pequeño de Microsoft supera a los modelos más grandes en pruebas de matemáticas estandarizadas (2024, 8 de marzo)recuperado el 8 de marzo de 2024de https://techxplore.com/news/2024-03-microsoft-small-language-outperforms-larger.html

Este documento está sujeto a derechos de autor.Aparte de cualquier trato justo con fines de estudio o investigación privados, noparte puede ser reproducida sin el permiso por escrito.El contenido se proporciona únicamente con fines informativos.