Exploring the fundamental reasoning abilities of LLMs
在不同背景下利用一致任務的比較實驗,每個實驗都強調演繹(即方法(a)和(b))或歸納推理(即方法(c)和(d))。圖片來源:Cheng 等人。

推理是人類在心理上處理資訊以得出具體結論或解決問題的過程,可分為兩大類。第一種推理稱為演繹推理,需要從一般規則或前提出發,然後使用該規則得出有關具體情況的結論。

例如,這可能意味著建立在「所有狗都有耳朵」和「吉娃娃狗是狗」的前提下,得出「吉娃娃狗有耳朵」的結論。

第二種廣泛使用的推理形式是歸納推理,它包括基於特定觀察的概括(即制定一般規則)。例如,這可能意味著假設所有天鵝都是白色的,因為我們一生中遇到的所有天鵝都是白色的。

過去的許多研究調查了人類如何在日常生活中使用演繹和歸納推理。然而在多大程度上迄今為止,很少有人探索採用這些不同推理策略的(人工智慧)系統。

亞馬遜和加州大學洛杉磯分校的研究團隊最近進行了一項研究,探索大型語言模型(LLM)的基本推理能力,大型人工智慧系統可以處理、產生和改編人類語言的文本。他們的發現,發佈到arXiv預印本伺服器顯示這些模型具有很強的歸納推理能力,但它們往往表現出較差的演繹推理能力。

本文的目的是更好地理解法學碩士推理中的差距,並確定為什麼法學碩士在偏離常態的「反事實」推理任務中表現較低。

Exploring the fundamental reasoning abilities of LLMs
團隊用於歸納推理的 SolverLearner 框架概述。SolverLearner 遵循兩步驟過程,將輸入輸出映射函數的學習與這些函數的推理應用分開。具體來說,函數是透過外部程式碼解釋器應用的,以避免合併基於 LLM 的演繹推理。圖片來源:Cheng 等人。

過去的各種研究透過測試法學碩士遵循指令作為基本推理任務的一部分的能力來評估他們的演繹推理技能。然而,他們的歸納推理(即他們根據過去處理的資訊做出一般預測的能力)尚未被仔細研究。

為了清楚地區分歸納推理和演繹推理,研究人員引入了一個新模型,稱為 SolverLearner。該模型使用兩步驟方法將學習規則的過程與將規則應用於特定案例的過程分開。亞馬遜發言人表示,特別是,這些規則是透過程式碼解釋器等外部工具應用的,以避免依賴法學碩士的演繹推理能力。

亞馬遜團隊使用他們開發的 SolverLearner 框架,訓練法學碩士學習使用特定範例將輸入資料點映射到相應輸出的函數。這反過來又使他們能夠調查模型可以根據提供給他們的範例學習一般規則的程度。

研究人員發現,法學碩士的歸納推理能力比演繹推理能力更強,特別是對於涉及偏離常態的「反事實」場景的任務。這些發現可以幫助人們更好地了解何時以及如何使用法學碩士。例如,在設計聊天機器人等代理系統時,最好利用法學碩士強大的歸納能力。

整體而言,研究人員發現法學碩士在歸納推理任務上表現非常出色,但他們往往缺乏演繹推理能力。在基於假設或偏離常態的場景中,他們的演繹推理似乎特別差。

作為本研究的一部分收集的結果可以激勵人工智慧開發人員利用法學碩士強大的歸納推理能力來解決特定任務。此外,他們還可以為旨在理解法學碩士推理過程的進一步努力鋪平道路。

亞馬遜發言人表示,該領域的未來研究可能會集中在探索法學碩士壓縮資訊的能力與其強大的歸納能力之間的關係。這種觀點可能會進一步提高LLM的歸納推理能力。

更多資訊:程科偉等,歸納還是演繹?重新思考法學碩士的基本推理能力,arXiv(2024)。DOI:10.48550/arxiv.2408.00114

期刊資訊: arXiv

© 2024 Science X 網絡

引文:探索法學碩士的基本推理能力(2024 年,8 月 31 日)檢索日期:2024 年 9 月 2 日來自 https://techxplore.com/news/2024-08-exploring-fundamental-bility-llms.html

本文檔受版權保護。除了出於私人學習或研究目的的任何公平交易外,不得未經書面許可,不得複製部分內容。所提供的內容僅供參考。