AI研究員討論新版ChatGPT在數學和推理上的進步

2024-09-18 14:19:39

9 月 12 日，OpenAI 發布了一個新的 ChatGPT 模型，該公司稱該模型在數學和科學方面比之前的版本要好得多，而先前的版本在推理方面存在困難。早期的模型在國際數學奧林匹克（頂級高中數學競賽）資格考試中的得分僅為 13%。名為「o1」的新模型將這一分數提高到了 83%。

9月12日，OpenAI宣告該公司表示，新的 ChatGPT 模型在數學和科學方面比之前的版本好得多，而先前的版本在推理方面遇到了困難。早期的模型在國際數學奧林匹克（頂級高中數學競賽）資格考試中的得分僅為 13%。名為「o1」的新模型將這一分數提高到了 83%。

Niloofar Mireshghallah 是華盛頓大學 Paul G. Allen 電腦科學與工程學院的博士後學者，研究大型語言模型（例如 ChatGPT）的隱私和社會影響。

威斯康辛大學新聞採訪了她為什麼數學推理對這些人工智慧模型以及公眾應該了解 OpenAI 新版本的內容提出瞭如此大的挑戰。

ChatGPT 和其他法學碩士透過預測接下來出現的單字來運作非常流暢。為什麼數學和推理對於法學碩士來說如此困難？

主要有兩個原因。一是模型在進行下一個單字預測時很難「弄清楚」規則和原理。你需要來回推導一下才能做數學。關於更符合邏輯或常識的推理，另一個困難的原因是，正如我的導師 Yejin Choi 所說，常識就像暗物質。它就在那裡，但我們看不到它，也看不見它。

我們知道冰箱門不應該開著，但很少有文字說明這一點。如果某件事沒有文字，模型就不會選擇它。同樣適用於社會規範或其他形式的推理！

OpenAI 首席科學家 Jakub Pachocki 告訴紐約時報：「這個模型需要時間。它可以用英語思考問題，並嘗試將其分解並尋找角度，以努力提供最佳答案。這是一個很大的轉變嗎？這個新模型是否在做一些更接近「思考」的事情？

整個“慢慢來”是對正在發生的事情的簡化，我們稱之為“測試時計算「到目前為止，大公司會透過評估模型和訓練資料來擴展模型。但這些公司可能已經達到飽和狀態，因為沒有更多的預先準備訓練資料，而調整模型的大小可能對我們沒有太大幫助。這種測試時間的投入有助於模型進行內部推理，因此它可以嘗試分解問題並進行多次迭代。

這稱為思維鏈推理，就像在數學問題中展示你的工作，但針對的是語言和思考任務。人工智慧不只是給出最終答案，而是一步一步地工作，寫下推理過程的每一步。

想像一下，你被要求解決一個應用題：“如果莎莉有 3 個蘋果，並給了她的朋友 2 個，她還剩下多少個？”正常的人工智慧反應可能只是說「1 個蘋果」。

但如果採用思考鏈推理，它看起來更像是這樣的：

莎莉從 3 個蘋果開始
她贈送了 2 顆蘋果
為了找出還剩下多少，我們減去：3×2 = 1
因此，莎莉還剩下 1 個蘋果

這個循序漸進的過程在幾個方面有幫助：它使人工智慧的推理更加透明，因此我們可以看到它是如何得出答案的，並且在出現錯誤的情況下，可能會發現問題所在。

思考鏈推理對於更複雜的任務特別有用，例如回答多步驟問題、解決數學問題或分析需要多個邏輯步驟的情況。

從某種意義上說，該模型可以測試自己的反應，而不是僅僅進行下一個單字的預測。之前的一個問題是，如果模型預測了一個單字錯誤，它就必須提交，並且會出軌，因為以下所有預測都部分基於該錯誤預測。

這種思想鏈推理和回應生成的形式是迄今為止最接近人類思維的程式。我們不完全確定這個內部是如何推理完全有效，但現在模型可以花時間測試自己的回應。研究人員已經向模型展示了當提供多種選擇時，模型會發現自己的錯誤並對自己的反應進行排名。

例如，在一個最近的論文[發佈到arXiv預印本伺服器]，我們表明法學碩士在產生回應時會破壞生日驚喜，但當被問及他們的回應是否合適時，他們會意識到錯誤。因此，這種自測試可以幫助模型得出更合乎邏輯的反應。

當公司宣布這樣的新人工智慧模型時，人們應該了解和關注什麼？

我認為人們應該小心的一件事是仍然對模型輸出進行事實檢查，而不是被模型的「思考」和花時間所愚弄。是的，我們得到了更好的回應，但是仍存在故障模式。

更多資訊：Niloofar Mireshghallah 等人，法學碩士可以保守秘密嗎？透過上下文完整性理論測試語言模型的隱私意義，arXiv（2023）。DOI：10.48550/arxiv.2310.17884

期刊資訊： arXiv

引文:AI研究員討論新版ChatGPT在數學與推理上的進展（2024年9月18日）檢索日期：2024 年 9 月 18 日取自 https://techxplore.com/news/2024-09-ai-discusses-version-chatgpt-advances.html

本文檔受版權保護。除了出於私人學習或研究目的的任何公平交易外，不得未經書面許可，不得複製部分內容。所提供的內容僅供參考。

另請參閱其他語言版本: English | 简中 | 正體 | 日本語 | 한국인 | हिंदी | Español