人工智能挑战赛寻求测试人类智力水平的问题

2024-10-08 05:27:44

旧金山人工智能领域的两家领先企业向公众发起挑战，要求他们提出能够测试 Google Gemini 和 OpenAI 的 o1 等大型语言模型 (LLM) 功能的问题。Scale AI 专门为法学硕士培训准备大量数据，该公司与人工智能安全中心 (CAIS) 合作发起了“人类最后考试”计划。

旧金山人工智能领域的两位领先者已经挑战过公众提出能够测试 Google Gemini 和 OpenAI 的 o1 等大型语言模型 (LLM) 功能的问题。Scale AI 专门为法学硕士培训准备大量数据，该公司与人工智能安全中心 (CAIS) 合作发起了“人类最后考试”计划。

Scale 和 CAIS 表示，针对那些提出测试中选出的前 50 个问题的人，将奖励 5,000 美元（3,800 英镑），其目标是测试我们距离实现“专家级人工智能系统”有多远，使用“历史上最大、最广泛的专家联盟。”

为什么要这样做？领先的法学硕士已经通过了许多既定的智力测试，数学和法律，但很难确定这有多大意义。在许多情况下，由于他们接受的训练数据量巨大，其中包括互联网上所有内容的很大一部分，他们可能已经预先了解了答案。

数据是整个领域的基础。它的后面是范式转变从传统计算到人工智能，从“告诉”到“展示”这些机器要做什么。这需要良好的训练数据集，也需要良好的测试。开发人员通常使用尚未用于训练的数据（行话中称为“测试数据集”）来执行此操作。

如果法学硕士还不能预先学习律师资格考试等既定测试的答案，他们可能很快就会做到。人工智能分析网站纪元估计到 2028 年，人工智能将有效地阅读人类所写的所有内容。同样重要的挑战是，一旦突破极限，如何继续评估人工智能。

当然，互联网一直在扩展，每天都会添加数百万个新项目。能解决这些问题吗？

也许吧，但这会导致另一个潜在的困难，称为“模型崩溃随着互联网上人工智能生成的材料越来越多，这些材料又循环到未来的人工智能训练集中，这可能会导致人工智能的表现越来越差。为了克服这个问题，许多开发人员已经从人工智能的人类交互中收集数据，添加新的数据。用于训练和测试的数据。

一些专家认为，人工智能还需要变得“具体化”：像人类一样在现实世界中移动并获得自己的经验。这听起来可能有点牵强，直到你意识到特斯拉多年来一直在其汽车上这样做。另一个机会是人类可穿戴设备，例如雷朋 (Ray-Ban) 推出的 Meta 广受欢迎的智能眼镜。这些都配备了摄像头和麦克风，并且可以使用收集大量以人为中心的视频和音频数据。

狭窄的测试

然而，即使此类产品保证未来有足够的训练数据，仍然存在如何定义和衡量智力的难题，尤其是通用人工智能（AGI），意思是等于或超越的人工智能人类智慧。

传统的人类智商测试长期以来因未能捕捉到人类智商的变化而备受争议。多面性智力，涵盖从语言到数学到同理心到方向感的一切。

人工智能使用的测试也存在类似的问题。有许多完善的测试涵盖总结文本、理解文本、绘图等任务正确的推论从信息中识别人类姿势和手势以及机器视觉。

一些测试即将退役，通常是因为人工智能在这些方面做得很好，但它们的任务针对性很强，只能用来衡量智力。例如，下棋的人工智能鳕鱼干远远领先于有史以来得分最高的人类棋手马格努斯·卡尔森 (Magnus Carlsen)埃洛评级系统。然而Stockfish无法完成其他任务，例如理解语言。显然，将其国际象棋能力与更广泛的智力混为一谈是错误的。

但随着人工智能现在展示出更广泛的智能行为，挑战在于设计新的基准来比较和衡量它们的进步。法国谷歌工程师 François Chollet 提出了一种值得注意的方法。他认为真正的智力在于适应和推广学习到新的、未见过的情况的能力。2019 年，他提出了“抽象与推理语料库”（ARC），这是一系列简单视觉网格形式的谜题，旨在测试人工智能推断和应用抽象规则的能力。

不像之前的基准通过在数百万张图像上训练人工智能来测试视觉对象识别，每张图像都包含有关所包含对象的信息，ARC 提前给出了最少的示例。人工智能必须弄清楚谜题逻辑，而不能只是学习所有可能的答案。

虽然 ARC 测试并不是特别困难对于人类解决的问题，第一个得分达到 85% 的人工智能系统将获得 60 万美元的奖励。在撰写本文时，我们距离这一点还有很长的路要走。最近两个领先的法学硕士，OpenAI 的 o1 预览版和 Anthropic 的 Sonnet 3.5，均得分ARC 公共排行榜（被称为ARC-AGI-Pub）。

其他最近的尝试使用 OpenAI 的 GPT-4o得分 50%，但有些争议，因为该方法在选择为测试提供最佳答案的解决方案之前生成了数千种可能的解决方案。即便如此，这仍然距离触发该奖项或与人类的表现相匹配还很遥远超过90%。

虽然 ARC 仍然是当今测试人工智能真正智能的最可信的尝试之一，但 Scale/CAIS 计划表明，人们仍在继续寻找令人信服的替代方案。（令人着迷的是，我们可能永远不会看到一些获奖问题。它们不会发布在互联网上，以确保人工智能不会偷看试卷。）

我们需要知道机器何时接近人类水平的推理，以及由此引发的所有安全、伦理和道德问题。到那时，我们可能会遇到一个更难的考试问题：如何测试超级智能。这是我们需要弄清楚的一项更加令人费解的任务。

本文转载自对话根据知识共享许可。阅读原创文章。

引文:AI 挑战寻求测试人类智力水平的问题（2024 年 10 月 7 日）检索日期：2024 年 10 月 8 日来自 https://techxplore.com/news/2024-10-ai- human-intelligence.html

本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外，不得未经书面许可，不得复制部分内容。所提供的内容仅供参考。

另请参阅其他语言版本: English | 简中 | 正體 | 日本語 | 한국인 | हिंदी | Español