equations
Crédito: Unsplash/CC0 Dominio público

El 12 de septiembre, OpenAIanunciadoun nuevo modelo ChatGPT que, según la compañía, es sustancialmente mejor en matemáticas y ciencias que las versiones anteriores, que tenían problemas con el razonamiento.Un modelo anterior obtuvo sólo un 13% en el examen de calificación para la Olimpiada Internacional de Matemáticas (la competencia de matemáticas más importante de la escuela secundaria).El nuevo modelo, llamado "o1", elevó esa puntuación al 83%.

Niloofar Mireshghallah, becario postdoctoral de la Universidad de Washington en la Escuela de Ingeniería y Ciencias de la Computación Paul G. Allen, estudia las implicaciones sociales y de privacidad de grandes modelos de lenguaje, como ChatGPT.

UW News habló con ella sobre por quéy el razonamiento han desafiado tanto estos modelos de inteligencia artificial y lo que el público debería saber sobre la nueva versión de OpenAI.

ChatGPT y otros LLMtrabajar prediciendo qué palabra viene a continuacióncon gran fluidez.¿Por qué las matemáticas y el razonamiento han sido tan difíciles para los LLM?

Hay dos razones principales.Una es que es difícil "descifrar" reglas y principios cuando el modelo predice la siguiente palabra.Necesitas ir y venir un poco y deducir para hacer matemáticas.Respecto al razonamiento más lógico o de sentido común, otro motivo de dificultad es que, como dice mi asesor Yejin Choi,El sentido común es como la materia oscura..Está ahí, pero no lo vemos ni lo decimos.

Sabemos que la puerta del frigorífico no se debe dejar abierta, pero hay pocos textos que lo digan.Si no hay texto para algo, los modelos no lo captarán.Lo mismo ocurre conu otras formas de razonamiento!

Jakub Pachocki, científico jefe de OpenAI, dijo alNew York Times: 'Este modelo puede tomarse su tiempo.Puede pensar en el problema, en inglés, e intentar desglosarlo y buscar ángulos en un esfuerzo por proporcionar la mejor respuesta.'¿Es este un gran cambio?¿Este nuevo modelo está haciendo algo más cercano al "pensamiento"?

Todo este "tómate tu tiempo" es una simplificación de lo que está pasando, lo que llamamos "cálculo del tiempo de prueba." Hasta ahora, las grandes empresas escalaban modelos dimensionando tanto los modelos como los datos de capacitación. Pero las empresas podrían haber alcanzado una saturación allí, ya que no hay más pre-datos de entrenamientoEsta inversión en tiempo de prueba ayuda al modelo a realizar un razonamiento interno, por lo que puede intentar descomponer los problemas y realizar múltiples iteraciones.

Esto se llama razonamiento en cadena de pensamiento, que es como mostrar su trabajo en un problema de matemáticas, pero para tareas de lenguaje y pensamiento.En lugar de limitarse a dar una respuesta final, la IA trabaja paso a paso, anotando cada paso de su proceso de razonamiento.

Imagina que te piden que resuelvas un problema planteado: "Si Sally tiene 3 manzanas y le da 2 a su amiga, ¿cuántas le quedan?"Una respuesta normal de la IA podría decir simplemente "1 manzana".

Pero con un razonamiento en cadena de pensamientos, se parecería más a esto:

  1. Sally comienza con 3 manzanas.
  2. Ella regala 2 manzanas
  3. Para saber cuántos quedan, restamos: 3â2 = 1
  4. Por lo tanto, a Sally le queda 1 manzana.

Este proceso paso a paso ayuda de varias maneras: hace que el razonamiento de la IA sea más transparente, de modo que podamos ver cómo llegó a su respuesta y, en caso de error, potencialmente detectar dónde salieron mal las cosas.

El razonamiento en cadena de pensamiento es especialmente útil para tareas más complicadas, como responder preguntas de varios pasos, resolver problemas matemáticos o analizar situaciones que requieren varios pasos lógicos.

En cierto sentido, el modelo puede probar su propia respuesta, en lugar de simplemente hacer una predicción de la siguiente palabra.Un problema anterior era que si un modelo predecía mal una palabra, tenía que cometer un error y se descarrilaba porquetodas sus siguientes predicciones se basan en parte en esa predicción incorrecta.

Esta forma de razonamiento en cadena de pensamientos y generación de respuestas es el procedimiento más cercano que tenemos al pensamiento humano hasta ahora.No estamos del todo seguros de cómorazonamientoLos investigadores han demostrado que los modelos encuentran sus propios errores y clasifican sus propias respuestas cuando se les ofrecen múltiples opciones.

Por ejemplo, en unartículo reciente[publicado en elarXivservidor de preimpresión], demostramos que los LLM arruinarían las sorpresas de cumpleaños al generar una respuesta, pero cuando se les preguntó si su respuesta es apropiada, se darían cuenta del error.Por tanto, esta autoevaluación puede ayudar al modelo a encontrar una respuesta más lógica.

¿A qué debería saber y prestar atención la gente cuando las empresas anuncian nuevos modelos de IA como este?

Creo que una cosa con la que la gente debería tener cuidado es verificar los resultados del modelo y no dejarse engañar por el modelo "pensando" y tomándose su tiempo.Sí, estamos obteniendo mejores respuestas, perotodavía hay modos de falla.

Más información:Niloofar Mireshghallah et al, ¿Pueden los LLM guardar un secreto?Prueba de las implicaciones de privacidad de los modelos lingüísticos a través de la teoría de la integridad contextual.arXiv(2023).DOI: 10.48550/arxiv.2310.17884

Información de la revista: arXiv

Citación:Investigador de IA analiza la nueva versión de los avances de ChatGPT en matemáticas y razonamiento (2024, 18 de septiembre)recuperado el 18 de septiembre de 2024de https://techxplore.com/news/2024-09-ai-discusses-version-chatgpt-advances.html

Este documento está sujeto a derechos de autor.Aparte de cualquier trato justo con fines de estudio o investigación privados, noparte puede ser reproducida sin el permiso por escrito.El contenido se proporciona únicamente con fines informativos.