Can advanced AI can solve visual puzzles and perform abstract reasoning?
模型对 IQ50 数据集样本进行预测的示例。给出带有视觉谜题的提示(上图),模型会生成一个响应,其中包括其推理和所选选项。信用:arXiv(2024)。DOI:10.48550/arxiv.2401.12117

人工智能已经学会了掌握语言、创造艺术,甚至在国际象棋方面击败了大师。但它能破解抽象推理的密码——那些让人类摸不着头脑的棘手视觉谜题吗?

南加州大学维特比工程信息科学研究所 (ISI) 的研究人员正在测试人工智能的认知能力,推动多模态大语言模型 (MLLM) 解决曾经用于人类智商测试的视觉问题。结果呢?了解人工智能已经走了多远,以及它仍然存在哪些问题。

南加州大学维特比 ISI 研究助理 Kian Ahrabian 和zhivar Sourati 最近研究了 MLLM 是否可以执行非语言抽象,需要两者的任务和逻辑推理,并在语言建模会议上展示了他们的发现(2024年COLM)于 2024 年 10 月 7 日至 9 日在宾夕法尼亚州费城举行。该作品也是可用的arXiv预印本服务器。

南加州大学维特比工程学院计算机科学副教授、该论文的作者 Jay Pujara 表示:“每天我们都会收到关于人工智能能(和不能)做什么的新头条新闻,这些新闻通常非常令人震惊。令人惊讶的是,我们对新的人工智能模型的功能的了解仍然非常有限,在我们了解这些限制之前,我们无法使人工智能变得更好、更安全、更有用。本文有助于填补这个故事中缺失的部分。人工智能在挣扎。”

挑战:人工智能能够看到和思考吗?

“我们想看看新一代能够处理图像的大型模型是否能够自行推理,”Ahrabian 解释道。“例如,如果您看到黄色圆圈变成蓝色三角形,模型能否在不同场景中应用相同的模式?”

为了回答这个问题,该团队在基于 Raven 渐进矩阵(一种著名的抽象推理测试)的谜题上测试了 24 个不同的 MLLM。他们发现开源模型陷入困境。“他们真的很糟糕。他们什么也得不到,”阿赫拉比安坦白地说。

相比之下,闭源模型,例如 GPT-4V(由私营公司开发且不公开进行修改的模型)表现更好。这些模型通常使用更先进的资源进行训练,包括更大的数据集和更强大的计算系统,这给了它们明显的优势。“我们在闭源模型中看到了一些重要的结果,”Ahrabian 补充道,“具体来说,GPT-4V 在推理方面相对较好,但它还远非完美。”

人工智能绊倒的地方

这项研究的一个关键部分涉及剖析这些模型的失败之处。一个关键问题是人工智能准确处理视觉信息的能力。“我们想知道模型是否可以看到细节——比如颜色或线条碰撞——以及这是否是他们出错的地方,”Ahrabian 说。

为了隔离问题,研究人员提供了图像的详细文本描述,确保模型以不同的格式拥有所有必要的信息“即使我们删除视觉元素并只给它们文本,许多模型仍然无法有效地推理,”苏拉蒂解释道。

这揭示了一个重要的见解:问题不仅仅在于视觉处理,还在于推理本身。现在,团队对哪些方面不起作用有了更清晰的了解,这使他们能够调整重点并指导未来的改进。

前进之路:提高人工智能的推理能力

研究人员探索的一种有前途的方法是“思维链提示”,即通过推理任务提示人工智能逐步思考。这种方法在某些情况下带来了显着的改进。“通过提示指导模型,我们能够看到性能提高 100%,”Ahrabian 指出。

尽管还存在挑战,研究人员仍持乐观态度。该研究的结果强调了人工智能当前的局限性和未来发展的令人兴奋的可能性。随着这些模型的不断发展,南加州大学的研究可能为人工智能铺平道路,人工智能不仅可以理解,而且可以推理,从而模糊机器智能和人类认知之间的界限。

更多信息:Kian Ahrabian 等人,多模态大型语言模型的非语言抽象推理的奇怪案例,arXiv(2024)。DOI:10.48550/arxiv.2401.12117

期刊信息: arXiv

引文:先进的人工智能可以解决视觉难题并进行抽象推理吗?(2024 年 10 月 9 日)检索日期:2024 年 10 月 9 日来自 https://techxplore.com/news/2024-10-advanced-ai-visual-puzzles-abstract.html

本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外,不得未经书面许可,不得复制部分内容。所提供的内容仅供参考。