Can advanced AI can solve visual puzzles and perform abstract reasoning?
模型對 IQ50 資料集樣本進行預測的範例。給出具有視覺謎題的提示(上圖),模型會產生一個回應,其中包括其推理和所選選項。信用:arXiv(2024)。DOI:10.48550/arxiv.2401.12117

人工智慧已經學會了掌握語言、創造藝術,甚至在國際象棋方面擊敗了大師。但它能破解抽象推理的密碼──那些讓人類摸不著頭腦的棘手視覺謎題嗎?

南加州大學維特比工程資訊科學研究所 (ISI) 的研究人員正在測試人工智慧的認知能力,推動多模態大語言模型 (MLLM) 解決曾經用於人類智商測試的視覺問題。結果呢?了解人工智慧已經走了多遠,以及它仍然存在哪些問題。

南加州大學維特比 ISI 研究助理 Kian Ahrabian 和zhivar Sourati 最近研究了 MLLM 是否可以執行非語言抽象,需要兩者的任務和邏輯推理,並在語言建模會議上展示了他們的發現(2024年COLM)於 2024 年 10 月 7 日至 9 日在賓夕法尼亞州費城舉行。可用的arXiv預印本伺服器。

南加州大學維特比工程學院電腦科學副教授、論文的作者 Jay Pujara 表示:「每天我們都會收到關於人工智慧能(和不能)做什麼的新頭條新聞,這些新聞通常非常令人震驚。令人驚訝的是,我們對新的人工智慧模型的功能的了解仍然非常有限,在我們了解這些限制之前,我們無法使人工智慧變得更好、更安全、更有用。缺失的部分。

挑戰:人工智慧能夠看見和思考嗎?

「我們想看看新一代能夠處理影像的大型模型是否能夠自行推理,」Ahrabian 解釋道。“例如,如果您看到黃色圓圈變成藍色三角形,模型能否在不同場景中應用相同的模式?”

為了回答這個問題,團隊在基於 Raven 漸進矩陣(一種著名的抽象推理測試)的謎題上測試了 24 個不同的 MLLM。他們發現開源模型陷入困境。「他們真的很糟糕。他們什麼也得不到,」阿赫拉比安坦白地說。

相較之下,閉源模型,例如 GPT-4V(由私人公司開發且不公開進行修改的模型)表現較好。這些模型通常使用更先進的資源進行訓練,包括更大的資料集和更強大的計算系統,這給了它們明顯的優勢。“我們在閉源模型中看到了一些重要的結果,”Ahrabian 補充道,“具體來說,GPT-4V 在推理方面相對較好,但它還遠非完美。”

人工智慧絆倒的地方

這項研究的關鍵部分涉及剖析這些模型的失敗之處。一個關鍵問題是人工智慧準確處理視覺訊息的能力。「我們想知道模型是否可以看到細節——例如顏色或線條碰撞——以及這是否是他們出錯的地方,」Ahrabian 說。

為了隔離問題,研究人員提供了圖像的詳細文本描述,確保模型以不同的格式擁有所有必要的信息“即使我們刪除視覺元素並只給它們文本,許多模型仍然無法有效地推理,”蘇拉蒂解釋道。

這揭示了一個重要的見解:問題不僅在於視覺處理,還在於推理本身。現在,團隊對哪些方面不起作用有了更清晰的了解,這使他們能夠調整重點並指導未來的改進。

前進之路:提升人工智慧的推理能力

研究人員探索的一種有前途的方法是“思維鏈提示”,即透過推理任務提示人工智慧逐步思考。這種方法在某些情況下帶來了顯著的改進。「透過提示指導模型,我們能夠看到效能提高 100%,」Ahrabian 指出。

儘管仍有挑戰,研究人員仍持樂觀態度。該研究的結果強調了人工智慧當前的局限性和未來發展的令人興奮的可能性。隨著這些模型的不斷發展,南加州大學的研究可能為人工智慧鋪平道路,人工智慧不僅可以理解,而且可以推理,從而模糊機器智慧和人類認知之間的界限。

更多資訊:Kian Ahrabian 等人,多模態大型語言模型的非語言抽象推理的奇怪案例,arXiv(2024)。DOI:10.48550/arxiv.2401.12117

期刊資訊: arXiv

引文:先進的人工智慧可以解決視覺難題並進行抽象推理嗎?(2024 年 10 月 9 日)檢索日期:2024 年 10 月 9 日來自 https://techxplore.com/news/2024-10-advanced-ai-visual-puzzles-abstract.html

本文檔受版權保護。除了出於私人學習或研究目的的任何公平交易外,不得未經書面許可,不得複製部分內容。所提供的內容僅供參考。