Can advanced AI can solve visual puzzles and perform abstract reasoning?
Un ejemplo de predicción del modelo en una muestra del conjunto de datos IQ50.Al recibir una indicación con un rompecabezas visual (arriba), el modelo genera una respuesta que incluye su razonamiento y la opción elegida.Crédito:arXiv(2024).DOI: 10.48550/arxiv.2401.12117

La Inteligencia Artificial ha aprendido a dominar el lenguaje, generar arte e incluso vencer a grandes maestros en el ajedrez.Pero, ¿podrá descifrar el código del razonamiento abstracto, esos complicados acertijos visuales que dejan a los humanos rascándose la cabeza?

Investigadores del Instituto de Ciencias de la Información (ISI) de la Escuela de Ingeniería Viterbi de la USC están poniendo a prueba las capacidades cognitivas de la IA, impulsando los modelos multimodales de lenguaje grande (MLLM) para resolver problemas visuales que alguna vez estuvieron reservados para las pruebas de coeficiente intelectual humano.¿El resultado?Un vistazo a lo lejos que ha llegado la IA y dónde aún tropieza.

Los asistentes de investigación de USC Viterbi ISI, Kian Ahrabian y Zhivar Sourati, investigaron recientemente si los MLLM pueden realizar resúmenes no verbales., tareas que requieren tantoy razonamiento lógico, y presentaron sus hallazgos en la Conferencia sobre Modelado del Lenguaje (COLM 2024) en Filadelfia, PA, del 7 al 9 de octubre de 2024. El trabajo también esdisponibleen elarXivservidor de preimpresión.

Jay Pujara, profesor asociado de investigación de ciencias de la computación en la Escuela de Ingeniería Viterbi de la USC y autor del artículo, dijo: "Todos los días nos bombardean con nuevos titulares sobre lo que la IA puede (y no puede) hacer, que a menudo son muyEs sorprendente que todavía tengamos una comprensión muy limitada de lo que pueden hacer los nuevos modelos de IA, y hasta que comprendamos estas limitaciones no podremos hacer que la IA sea mejor, más segura y más útil.La IA tiene problemas".

El desafío: ¿Puede la IA ver y pensar?

"Queríamos comprobar si esta nueva generación de modelos grandes, capaces de procesar imágenes, pueden razonar por sí solos", explicó Ahrabian."Por ejemplo, si ve un círculo amarillo que se convierte en un triángulo azul, ¿puede el modelo aplicar el mismo patrón en un escenario diferente?"

Para responder a esta pregunta, el equipo probó 24 MLLM diferentes en acertijos basados ​​en las matrices progresivas de Raven, una conocida prueba de razonamiento abstracto.Descubrieron que los modelos de código abierto tenían dificultades significativas."Fueron realmente malos. No pudieron sacar nada de esto", dijo claramente Ahrabian.

Por el contrario, los modelos de código cerrado, como los GPT-4V (modelos desarrollados por empresas privadas y no disponibles públicamente para su modificación), obtuvieron mejores resultados.Estos modelos suelen entrenarse con recursos más avanzados, incluidos conjuntos de datos más grandes y sistemas informáticos más potentes, lo que les otorga una ventaja notable."Vimos algunos resultados no triviales con modelos de código cerrado", añadió Ahrabian, "Específicamente, GPT-4V fue relativamente bueno en el razonamiento, pero está lejos de ser perfecto".

Donde tropieza la IA

Una parte fundamental del estudio implicó analizar dónde fallaban estos modelos.Una cuestión clave fue la capacidad de la IA para procesar con precisión información visual."Queríamos saber si los modelos podían ver los detalles, como colores o líneas en colisión, y si eso era lo que estaban haciendo mal", dijo Ahrabian.

Para aislar el problema, los investigadores proporcionaron descripciones textuales detalladas de las imágenes, asegurando que los modelos tuvieran toda la información necesaria en un formato diferente. "Incluso cuando eliminamos el elemento visual y solo les dimos texto, muchos modelos todavía no podían razonar de manera efectiva.", explicó Sourati.

Esto reveló una idea crucial: el problema no era sólo con el procesamiento visual, sino con el razonamiento mismo.Ahora, el equipo tenía una idea más clara de lo que no funcionaba, lo que les permitió refinar su enfoque y orientar futuras mejoras.

El camino a seguir: mejorar el razonamiento de la IA

Un método prometedor que exploraron los investigadores fue la "incitación en cadena de pensamiento", en la que se insta a la IA a pensar paso a paso mediante tareas de razonamiento.Este enfoque condujo a mejoras significativas en algunos casos."Al guiar a los modelos con sugerencias, pudimos ver una mejora de rendimiento de hasta el 100%", señaló Ahrabian.

A pesar de los desafíos pendientes, los investigadores son optimistas.Los hallazgos del estudio resaltan tanto las limitaciones actuales de la IA como las interesantes posibilidades de avances futuros.A medida que estos modelos continúan desarrollándose, la investigación de la USC podría allanar el camino para una IA que no sólo comprenda sino que razone, desdibujando la línea entre la inteligencia artificial y la cognición humana.

Más información:Kian Ahrabian et al, El curioso caso del razonamiento abstracto no verbal con modelos de lenguaje grande multimodales,arXiv(2024).DOI: 10.48550/arxiv.2401.12117

Información de la revista: arXiv

Citación:¿Puede la IA avanzada resolver acertijos visuales y realizar razonamientos abstractos?(2024, 9 de octubre)recuperado el 9 de octubre de 2024de https://techxplore.com/news/2024-10-advanced-ai-visual-puzzles-abstract.html

Este documento está sujeto a derechos de autor.Aparte de cualquier trato justo con fines de estudio o investigación privados, noparte puede ser reproducida sin el permiso por escrito.El contenido se proporciona únicamente con fines informativos.