AI研究员讨论新版ChatGPT在数学和推理方面的进步

2024-09-18 14:19:39

9 月 12 日，OpenAI 发布了一个新的 ChatGPT 模型，该公司称该模型在数学和科学方面比之前的版本要好得多，而之前的版本在推理方面存在困难。早期的模型在国际数学奥林匹克（顶级高中数学竞赛）资格考试中的得分仅为 13%。名为“o1”的新模型将这一分数提高到了 83%。

9月12日，OpenAI宣布该公司表示，新的 ChatGPT 模型在数学和科学方面比之前的版本要好得多，而之前的版本在推理方面遇到了困难。早期的模型在国际数学奥林匹克（顶级高中数学竞赛）资格考试中的得分仅为 13%。名为“o1”的新模型将这一分数提高到了 83%。

Niloofar Mireshghallah 是华盛顿大学 Paul G. Allen 计算机科学与工程学院的博士后学者，研究大型语言模型（例如 ChatGPT）的隐私和社会影响。

威斯康星大学新闻采访了她为什么数学推理对这些人工智能模型以及公众应该了解 OpenAI 新版本的内容提出了如此大的挑战。

ChatGPT 和其他法学硕士通过预测接下来出现的单词来工作非常流畅。为什么数学和推理对于法学硕士来说如此困难？

主要有两个原因。一是模型在进行下一个单词预测时很难“弄清楚”规则和原理。你需要来回推导一下才能做数学。关于更符合逻辑或常识的推理，另一个困难的原因是，正如我的导师 Yejin Choi 所说，常识就像暗物质。它就在那里，但我们看不到它，也看不到它。

我们知道冰箱门不应该开着，但很少有文字说明这一点。如果某件事没有文字，模型就不会选择它。同样适用于社会规范或其他形式的推理！

OpenAI 首席科学家 Jakub Pachocki 告诉纽约时报：“这个模型需要时间。它可以用英语思考问题，并尝试将其分解并寻找角度，以努力提供最佳答案。这是一个很大的转变吗？这个新模型是否在做一些更接近“思考”的事情？

整个“慢慢来”是对正在发生的事情的简化，我们称之为“测试时计算” 到目前为止，大公司会通过评估模型和训练数据来扩展模型。但这些公司可能已经达到饱和状态，因为没有更多的预先准备训练数据，而调整模型的大小可能对我们没有多大帮助。这种测试时间的投入有助于模型进行内部推理，因此它可以尝试分解问题并进行多次迭代。

这称为思维链推理，就像在数学问题中展示你的工作，但针对的是语言和思维任务。人工智能不只是给出最终答案，而是一步一步地工作，写下推理过程的每一步。

想象一下，你被要求解决一个应用题：“如果莎莉有 3 个苹果，并给了她的朋友 2 个，她还剩下多少个？”正常的人工智能反应可能只是说“1 个苹果”。

但如果采用思维链推理，它看起来更像是这样的：

莎莉从 3 个苹果开始
她赠送了 2 个苹果
为了找出还剩下多少，我们减去：3×2 = 1
因此，莎莉还剩下 1 个苹果

这个循序渐进的过程在几个方面有帮助：它使人工智能的推理更加透明，因此我们可以看到它是如何得出答案的，并且在出现错误的情况下，可能会发现问题所在。

思维链推理对于更复杂的任务特别有用，例如回答多步骤问题、解决数学问题或分析需要多个逻辑步骤的情况。

从某种意义上说，该模型可以测试自己的响应，而不是仅仅进行下一个单词的预测。之前的一个问题是，如果模型预测了一个单词错误，它就必须提交，并且会出轨，因为以下所有预测都部分基于该错误预测。

这种思想链推理和响应生成的形式是迄今为止最接近人类思维的程序。我们不完全确定这个内部是如何推理完全有效，但现在模型可以花时间测试自己的响应。研究人员已经向模型展示了当提供多种选择时，模型会发现自己的错误并对自己的反应进行排名。

例如，在一个最近的论文[发布到arXiv预印本服务器]，我们表明法学硕士在生成响应时会破坏生日惊喜，但当被问及他们的响应是否合适时，他们会意识到错误。因此，这种自测试可以帮助模型得出更合乎逻辑的响应。

当公司宣布这样的新人工智能模型时，人们应该了解和关注什么？

我认为人们应该小心的一件事是仍然对模型输出进行事实检查，而不是被模型的“思考”和花时间所愚弄。是的，我们得到了更好的回应，但是仍然存在故障模式。

更多信息：Niloofar Mireshghallah 等人，法学硕士可以保守秘密吗？通过上下文完整性理论测试语言模型的隐私含义，arXiv（2023）。DOI：10.48550/arxiv.2310.17884

期刊信息： arXiv

引文:AI研究员讨论新版ChatGPT在数学和推理方面的进展（2024年9月18日）检索日期：2024 年 9 月 18 日来自 https://techxplore.com/news/2024-09-ai-discusses-version-chatgpt-advances.html

本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外，不得未经书面许可，不得复制部分内容。所提供的内容仅供参考。

另请参阅其他语言版本: English | 简中 | 正體 | 日本語 | 한국인 | हिंदी | Español