artificial intelligence
Crédito: CC0 Dominio público

Dos de los principales actores de la inteligencia artificial de San Franciscohan desafiadoal público a proponer preguntas capaces de probar las capacidades de grandes modelos de lenguaje (LLM) como Google Gemini y o1 de OpenAI.Scale AI, que se especializa en preparar grandes cantidades de datos en los que se capacitan los LLM, se asoció con el Centro para la seguridad de la IA (CAIS) para lanzar la iniciativa Humanity's Last Exam.

Con premios de 5.000 dólares estadounidenses (3.800 libras esterlinas) para quienes respondan las 50 preguntas principales seleccionadas para la prueba, Scale y CAIS dicen que el objetivo es probar qué tan cerca estamos de lograr "sistemas de inteligencia artificial de nivel experto" utilizando el "La coalición de expertos más grande y amplia de la historia".

¿Por qué hacer esto?Los principales LLM ya están superando muchas pruebas establecidas en inteligencia,matemáticasyley, pero es difícil estar seguro de cuán significativo es esto.En muchos casos, es posible que hayan aprendido previamente las respuestas debido a las gigantescas cantidades de datos con los que están capacitados, incluido un porcentaje significativo de todo lo que hay en Internet.

Los datos son fundamentales para todo este ámbito.esta detrás deldesde la informática convencional hasta la IA, desde "decir" hasta "mostrar" a estas máquinas qué hacer.Esto requiere buenos conjuntos de datos de entrenamiento, pero también buenas pruebas.Los desarrolladores suelen hacer esto utilizando datos que aún no se han utilizado para la capacitación, conocidos en la jerga como "conjuntos de datos de prueba".

Si los LLM aún no pueden aprender previamente la respuesta a pruebas establecidas, como los exámenes de la abogacía, probablemente lo harán pronto.El sitio de análisis de IAEstimaciones de épocaque 2028 marcará el punto en el que las IA habrán leído efectivamente todo lo escrito por humanos.Un desafío igualmente importante es cómo seguir evaluando las IA una vez que se ha cruzado el Rubicón.

Por supuesto, Internet se expande todo el tiempo y diariamente se agregan millones de elementos nuevos.¿Podría eso solucionar estos problemas?

Quizás, pero esto desemboca en otra dificultad insidiosa, denominada "colapso del modelo." A medida que Internet se inunda cada vez más de material generado por IA que recircula en futuros conjuntos de entrenamiento de IA, esto puede hacer que las IA tengan un rendimiento cada vez más deficiente. Para superar este problema, muchos desarrolladores ya están recopilando datos de las interacciones humanas de sus IA, agregando nuevosdatos para entrenamiento y pruebas.

Algunos especialistas sostienen que las IA también necesitan "encarnarse": moverse en el mundo real y adquirir sus propias experiencias, como lo hacen los humanos.Esto puede parecer descabellado hasta que te das cuenta de que Tesla lleva años haciéndolo con sus coches.Otra oportunidad son los wearables humanos, como las populares gafas inteligentes de Meta de Ray-Ban.Estos están equipados con cámaras y micrófonos, yse puede utilizarpara recopilar grandes cantidades de datos de audio y vídeo centrados en el ser humano.

Pruebas estrechas

Sin embargo, incluso si estos productos garantizan suficientes datos de entrenamiento en el futuro, todavía existe el enigma de cómo definir y medir la inteligencia, particularmente(AGI), es decir, una IA que iguala o supera.

Las pruebas tradicionales de coeficiente intelectual humano han sido controvertidas durante mucho tiempo por no capturar lanaturaleza multifacéticade inteligencia, que abarca todo, desde el lenguaje hasta las matemáticas, la empatía y el sentido de orientación.

Existe un problema análogo con las pruebas utilizadas con las IA.Existen muchas pruebas bien establecidas que cubren tareas como resumir un texto, comprenderlo, dibujarinferencias correctasa partir de información, reconocimiento de posturas y gestos humanos y visión artificial.

Algunas pruebas se están retirando,generalmente porqueLas IA lo están haciendo muy bien, pero son tareas tan específicas que constituyen medidas de inteligencia muy limitadas.Por ejemplo, la IA que juega al ajedrezPescado de secoestá muy por delante de Magnus Carlsen, el jugador humano con mayor puntuación de todos los tiempos, en elelosistema de calificación.Sin embargo, Stockfish es incapaz de realizar otras tareas, como comprender el lenguaje.Claramente sería un error combinar sus capacidades ajedrecísticas con una inteligencia más amplia.

Pero ahora que las IA demuestran un comportamiento inteligente más amplio, el desafío es idear nuevos puntos de referencia para comparar y medir su progreso.Un enfoque notable proviene del ingeniero francés de Google, François Chollet.el argumentaque la verdadera inteligencia radica en la capacidad de adaptar y generalizar el aprendizaje a situaciones nuevas e invisibles.En 2019, ideó el "corpus de abstracción y razonamiento" (ARC), una colección de acertijos en forma de cuadrículas visuales simples diseñadas para probar la capacidad de una IA para inferir y aplicar reglas abstractas.

A diferencia depuntos de referencia anterioresque prueban el reconocimiento visual de objetos entrenando una IA en millones de imágenes, cada una con información sobre los objetos contenidos, ARC le da ejemplos mínimos de antemano.La IA tiene que descubrir la lógica del rompecabezas y no puede simplemente aprender todas las respuestas posibles.

Aunque las pruebas ARCno son particularmente difícilesPara que lo resuelvan los humanos, hay un premio de 600.000 dólares para el primer sistema de inteligencia artificial que alcance una puntuación del 85%.Al momento de escribir este artículo, estamos muy lejos de ese punto.Dos LLM líderes recientes, la vista previa o1 de OpenAI y Sonnet 3.5 de Anthropic,ambos anotan21% en la tabla de clasificación pública ARC (conocida comoARC-AGI-Pub).

Otrointento recienteusando GPT-4o de OpenAIanotó 50%, pero algo controvertido porque el enfoque generó miles de soluciones posibles antes de elegir la que daba la mejor respuesta para la prueba.Incluso entonces, esto todavía estaba lejos de desencadenar el premio, o de igualar las actuaciones humanas demás del 90%.

Si bien ARC sigue siendo uno de los intentos más creíbles de probar la inteligencia genuina en la IA en la actualidad, la iniciativa Scale/CAIS muestra que continúa la búsqueda de alternativas convincentes.(Curiosamente, es posible que nunca veamos algunas de las preguntas ganadoras. No se publicarán en Internet para garantizar que las IA no echen un vistazo a los exámenes).

Necesitamos saber cuándo las máquinas se están acercando al razonamiento a nivel humano, con todas las cuestiones de seguridad, éticas y morales que esto plantea.En ese punto, presumiblemente nos quedaremos con una pregunta de examen aún más difícil: cómo probar una superinteligencia.Ésa es una tarea aún más alucinante que debemos resolver.

Este artículo se republica desdeLa conversaciónbajo una licencia Creative Commons.Lea elartículo original.The Conversation

Citación:El desafío de IA busca preguntas para probar la inteligencia a nivel humano (7 de octubre de 2024)recuperado el 8 de octubre de 2024de https://techxplore.com/news/2024-10-ai-human-intelligence.html

Este documento está sujeto a derechos de autor.Aparte de cualquier trato justo con fines de estudio o investigación privados, noparte puede ser reproducida sin el permiso por escrito.El contenido se proporciona únicamente con fines informativos.