고급 AI가 시각적 퍼즐을 풀고 추상적 추론을 수행할 수 있습니까?

2024-10-09 21:55:54

인공 지능은 언어를 익히고, 예술을 창조하고, 심지어 체스에서 그랜드 마스터를 이기는 법도 배웠습니다.하지만 인간이 머리를 긁적거리게 만드는 까다로운 시각적 퍼즐인 추상적 추론의 코드를 해독할 수 있을까요?

Can advanced AI can solve visual puzzles and perform abstract reasoning? — IQ50 데이터 세트의 샘플에 대한 모델 예측의 예입니다.시각적 퍼즐(위)이 포함된 프롬프트가 주어지면 모델은 추론과 선택한 옵션이 포함된 응답을 생성합니다.신용 거래:*arXiv*(2024).DOI: 10.48550/arxiv.2401.12117

USC Viterbi School of Engineering Information Sciences Institute(ISI)의 연구원들은 AI의 인지 능력을 테스트하고 다중 모드 대형 언어 모델(MLLM)을 추진하여 한때 인간 IQ 테스트를 위해 예약되었던 시각적 문제를 해결하고 있습니다.결과는?AI가 얼마나 멀리 왔는지, 그리고 여전히 어디에서 비틀거리고 있는지 살펴보세요.

USC Viterbi ISI 연구 보조원 Kian Ahrabian과 Zhivar Sourati는 최근 MLLM이 비언어적 추상을 수행할 수 있는지 여부를 조사했습니다.추리, 둘 다 필요한 작업시각적 인식논리적 추론을 연구하고 언어 모델링 회의(Conference on Language Modeling)에서 그 결과를 발표했습니다.콜 2024) 2024년 10월 7~9일 펜실베니아주 필라델피아에서. 작품은 또한사용 가능에arXiv사전 인쇄 서버.

USC Viterbi School of Engineering의 컴퓨터 과학 연구 부교수이자 논문 저자인 Jay Pujara는 "매일 우리는 AI가 할 수 있는 것과 할 수 없는 것에 대한 새로운 헤드라인을 접하고 있습니다.놀랍게도 우리는 여전히 새로운 AI 모델이 무엇을 할 수 있는지에 대해 제한된 이해를 가지고 있으며, 이러한 한계를 이해하기 전까지는 AI를 더 좋고, 더 안전하고, 더 유용하게 만들 수 없습니다.AI가 어려움을 겪고 있다."

과제: AI가 보고 생각할 수 있을까요?

"우리는 이미지를 처리할 수 있는 이 새로운 세대의 대형 모델이 스스로 추론할 수 있는지 확인하고 싶었습니다."라고 Ahrabian은 설명했습니다."예를 들어 노란색 원이 파란색 삼각형으로 바뀌는 경우 모델이 다른 시나리오에서 동일한 패턴을 적용할 수 있습니까?"

이 질문에 답하기 위해 팀은 추상 추론에 대한 잘 알려진 테스트인 Raven's Progressive Matrices를 기반으로 하는 퍼즐에서 24개의 다양한 MLLM을 테스트했습니다.그들은 오픈 소스 모델이 상당한 어려움을 겪고 있음을 발견했습니다."그들은 정말 나빴습니다. 그들은 아무것도 얻을 수 없었습니다."라고 Ahrabian은 솔직하게 말했습니다.

이와 대조적으로 GPT-4V(민간 기업이 개발했지만 수정이 공개되지 않은 모델)와 같은 비공개 소스 모델의 성능이 더 좋았습니다.이러한 모델은 일반적으로 더 큰 데이터 세트와 더 강력한 컴퓨팅 시스템을 포함한 고급 리소스로 훈련되어 눈에 띄는 우위를 제공합니다.Ahrabian은 "우리는 비공개 소스 모델을 사용하여 몇 가지 중요한 결과를 보았습니다. 특히 GPT-4V는 추론에 상대적으로 뛰어났지만 완벽함과는 거리가 멀었습니다."라고 덧붙였습니다.

AI가 비틀거리는 곳

연구의 중요한 부분에는 이러한 모델이 실패한 부분을 분석하는 것이 포함되었습니다.핵심 문제 중 하나는 AI가 시각적 정보를 정확하게 처리하는 능력이었습니다.Ahrabian은 "우리는 모델이 색상이나 선의 충돌과 같은 세부 사항을 볼 수 있는지, 그리고 그것이 잘못된 부분인지 알고 싶었습니다."라고 말했습니다.

문제를 분리하기 위해 연구원들은 이미지에 대한 자세한 텍스트 설명을 제공하여 모델이 필요한 모든 정보를 다른 형식으로 갖도록 했습니다. "시각적 요소를 제거하고 텍스트만 제공하더라도 많은 모델이 여전히 효과적으로 추론할 수 없었습니다." Sourati는 설명했습니다.

이는 중요한 통찰력을 드러냈습니다. 문제는 시각적 처리에만 국한된 것이 아니라 추론 자체에 있었습니다.이제 팀은 무엇이 작동하지 않는지 더 명확하게 파악하여 초점을 맞추고 향후 개선 사항을 안내할 수 있었습니다.

앞으로 나아갈 길: AI의 추론 개선

연구원들이 탐구한 유망한 방법 중 하나는 AI가 추론 작업을 통해 단계별로 생각하도록 유도하는 '사고 사슬 프롬프트'였습니다.이 접근 방식을 통해 경우에 따라 상당한 개선이 이루어졌습니다.Ahrabian은 "힌트를 사용하여 모델을 안내함으로써 성능이 최대 100% 향상되는 것을 확인할 수 있었습니다."라고 말했습니다.

남은 과제에도 불구하고 연구자들은 낙관적입니다.이번 연구 결과는 AI의 현재 한계와 미래 발전의 흥미로운 가능성을 모두 강조합니다.이러한 모델이 계속 발전함에 따라 USC의 연구는 이해뿐만 아니라 추론을 통해 기계 지능과 인간 인지 사이의 경계를 모호하게 만드는 AI의 길을 열 수 있습니다.

추가 정보:Kian Ahrabian et al, 다중 모드 대형 언어 모델을 사용한 비언어적 추상 추론의 흥미로운 사례,arXiv(2024).DOI: 10.48550/arxiv.2401.12117

저널 정보: arXiv

소환:고급 AI가 시각적 퍼즐을 풀고 추상적 추론을 수행할 수 있습니까?(2024년 10월 9일)2024년 10월 9일에 확인함https://techxplore.com/news/2024-10-advanced-ai-visual-puzzles-abstract.html에서

다른 언어 버전도 참조하세요: English | 简中 | 正體 | 日本語 | 한국인 | हिंदी | Español