人工知能は言語を習得し、芸術を生み出し、チェスでグランドマスターに勝つことさえも学びました。しかし、抽象的な推論の暗号、つまり人間が頭を悩ませるようなトリッキーな視覚パズルを解読できるでしょうか?
USC ビタビ工学部情報科学研究所 (ISI) の研究者らは、AI の認知能力をテストし、人間の IQ テスト専用だった視覚的な問題を解決するためにマルチモーダル大規模言語モデル (MLLM) を推進しています。結果?AI がどこまで進んだのか、そしてまだどこでつまずいているのかを垣間見ることができます。
USC ビタビ ISI 研究助手のキアン・アフラビアン氏とジヴァル・ソウラティ氏は最近、MLLM が非言語要約を実行できるかどうかを調査しました。推論、両方が必要なタスク視覚と論理的推論を研究し、その結果を言語モデリング会議で発表しました (コルム2024) 2024 年 10 月 7 日から 9 日までペンシルベニア州フィラデルフィアで開催。この作品はまた、利用可能でarXivプレプリントサーバー。
南カリフォルニア大学ビタビ工学院のコンピューターサイエンス准教授で、この論文の著者でもあるジェイ・プジャラ氏は、「私たちは毎日、AIに何ができるのか(できないのか)についての新しい見出しにさらされているが、それは多くの場合非常に重要である」と述べた。驚くべきことに、新しい AI モデルができることについてはまだ限られた理解があり、これらの制限を理解するまでは、AI をより良く、より安全に、より便利にすることはできません。この論文は、そのストーリーの欠けている部分を埋めるのに役立ちます。AIは苦戦している。」
課題: AI は見て考えることができるでしょうか?
「私たちは、画像を処理できるこの新世代の大型モデルが独自に推論できるかどうかを確認したかったのです」とアーラビアン氏は説明した。「たとえば、黄色の円が青い三角形に変化する場合、モデルは同じパターンを別のシナリオに適用できますか?」
この質問に答えるために、チームは、抽象推論のよく知られたテストである Raven の漸進行列に基づくパズルで 24 の異なる MLLM をテストしました。彼らは、オープンソース モデルが非常に苦労していることを発見しました。「彼らは本当にひどかった。彼らはそこから何も得ることができなかった」とアラビアンははっきりと語った。
対照的に、GPT-4V などのクローズドソース モデル(民間企業によって開発され、修正が公開されていないモデル)のパフォーマンスは向上しました。これらのモデルは通常、大規模なデータセットやより強力なコンピューティング システムなどのより高度なリソースを使用してトレーニングされ、顕著な優位性をもたらします。「クローズドソースモデルでは重要な結果がいくつか見られました。具体的には、GPT-4V は推論においては比較的優れていましたが、完璧には程遠いです。」と Ahrabian 氏は付け加えました。
AIがつまずくところ
研究の重要な部分には、これらのモデルがどこで失敗しているかを分析することが含まれていました。重要な問題の 1 つは、AI が視覚情報を正確に処理する能力でした。「私たちは、モデルたちが色や線の衝突などの細部を認識できるかどうか、そしてそれがモデルたちの問題点なのかどうかを知りたかったのです」とアーラビアン氏は語った。
問題を切り分けるために、研究者らは画像の詳細なテキスト説明を提供し、モデルが必要なすべての情報を別の形式で確実に持つようにしました。「視覚要素を削除してテキストだけを与えたとしても、多くのモデルは依然として効果的に推論することができませんでした。」とスーラティ氏は説明した。
これにより、重要な洞察が明らかになりました。問題は視覚処理だけではなく、推論自体にあったのです。現在、チームは何が機能していないかをより明確に把握できるようになり、焦点を絞り、将来の改善に向けて取り組むことができるようになりました。
今後の方向性: AI の推論の改善
研究者らが検討した有望な方法の 1 つは、AI が推論タスクを通じて段階的に考えるように促される「思考連鎖プロンプティング」です。このアプローチにより、場合によっては大幅な改善がもたらされました。「ヒントを使ってモデルをガイドすることで、パフォーマンスが最大 100% 向上することが確認できました」と Ahrabian 氏は述べています。
課題は残っているものの、研究者らは楽観視している。この研究結果は、AI の現在の限界と将来の進歩の刺激的な可能性の両方を浮き彫りにしています。これらのモデルが開発を続けるにつれて、USC の研究は、機械知能と人間の認知の間の境界線を曖昧にする、理解するだけでなく理由を理解する AI への道を開く可能性があります。
詳細情報:Kian Ahrabian 他、マルチモーダル大規模言語モデルを使用した非言語抽象推論の奇妙なケース、arXiv(2024年)。DOI: 10.48550/arxiv.2401.12117
雑誌情報: arXiv
引用:高度な AI は視覚的なパズルを解き、抽象的な推論を実行できるでしょうか?(2024年10月9日)2024 年 10 月 9 日に取得https://techxplore.com/news/2024-10-advanced-ai-visual-puzzles-abstract.html より
この文書は著作権の対象です。個人的な研究や研究を目的とした公正な取引を除いて、書面による許可なく一部を複製することができます。コンテンツは情報提供のみを目的として提供されています。