Exploring the fundamental reasoning abilities of LLMs
在不同背景下利用一致任务的比较实验,每个实验都强调演绎(即方法(a)和(b))或归纳推理(即方法(c)和(d))。图片来源:Cheng 等人。

推理是人类在心理上处理信息以得出具体结论或解决问题的过程,可分为两大类。第一种推理称为演绎推理,需要从一般规则或前提出发,然后使用该规则得出有关具体情况的结论。

例如,这可能意味着建立在“所有狗都有耳朵”和“吉娃娃狗是狗”的前提下,得出“吉娃娃狗有耳朵”的结论。

第二种广泛使用的推理形式是归纳推理,它包括基于特定观察的概括(即制定一般规则)。例如,这可能意味着假设所有天鹅都是白色的,因为我们一生中遇到的所有天鹅都是白色的。

过去的许多研究调查了人类如何在日常生活中使用演绎和归纳推理。然而在多大程度上迄今为止,很少有人探索采用这些不同推理策略的(人工智能)系统。

亚马逊和加州大学洛杉矶分校的一个研究团队最近进行了一项研究,探索大型语言模型(LLM)的基本推理能力,大型人工智能系统可以处理、生成和改编人类语言的文本。他们的发现,发布到arXiv预印本服务器表明这些模型具有很强的归纳推理能力,但它们往往表现出较差的演绎推理能力。

本文的目的是更好地理解法学硕士推理中的差距,并确定为什么法学硕士在偏离常态的“反事实”推理任务中表现较低。

Exploring the fundamental reasoning abilities of LLMs
团队用于归纳推理的 SolverLearner 框架概述。SolverLearner 遵循两步过程,将输入输出映射函数的学习与这些函数的推理应用分开。具体来说,函数是通过外部代码解释器应用的,以避免合并基于 LLM 的演绎推理。图片来源:Cheng 等人。

过去的各种研究通过测试法学硕士遵循指令作为基本推理任务的一部分的能力来评估他们的演绎推理技能。然而,他们的归纳推理(即他们根据过去处理的信息做出一般预测的能力)尚未得到仔细研究。

为了清楚地区分归纳推理和演绎推理,研究人员引入了一种新模型,称为 SolverLearner。该模型使用两步方法将学习规则的过程与将规则应用于特定案例的过程分开。亚马逊发言人表示,特别是,这些规则是通过代码解释器等外部工具应用的,以避免依赖法学硕士的演绎推理能力。

亚马逊团队使用他们开发的 SolverLearner 框架,训练法学硕士学习使用特定示例将输入数据点映射到相应输出的函数。这反过来又使他们能够调查模型可以根据提供给他们的示例学习一般规则的程度。

研究人员发现,法学硕士的归纳推理能力比演绎推理能力更强,特别是对于涉及偏离常态的“反事实”场景的任务。这些发现可以帮助人们更好地了解何时以及如何使用法学硕士。例如,在设计聊天机器人等代理系统时,最好利用法学硕士强大的归纳能力。

总体而言,研究人员发现法学硕士在归纳推理任务上表现非常出色,但他们往往缺乏演绎推理能力。在基于假设或偏离常态的场景中,他们的演绎推理似乎特别差。

作为本研究的一部分收集的结果可以激励人工智能开发人员利用法学硕士强大的归纳推理能力来解决特定任务。此外,他们还可以为旨在理解法学硕士推理过程的进一步努力铺平道路。

亚马逊发言人表示,该领域的未来研究可能会集中于探索法学硕士压缩信息的能力与其强大的归纳能力之间的关系。这种观点可能会进一步提高LLM的归纳推理能力。

更多信息:程科伟等,归纳还是演绎?重新思考法学硕士的基本推理能力,arXiv(2024)。DOI:10.48550/arxiv.2408.00114

期刊信息: arXiv

© 2024 Science X 网络

引文:探索法学硕士的基本推理能力(2024 年,8 月 31 日)检索日期:2024 年 9 月 2 日来自 https://techxplore.com/news/2024-08-exploring-fundamental-bility-llms.html

本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外,不得未经书面许可,不得复制部分内容。所提供的内容仅供参考。