在发布前几周OpenAI 最新的“推理”模型,o1,独立AI安全研究公司Apollo发现了一个值得注意的问题。阿波罗意识到模型产生了错误的输出 以一种新的方式。或者,更通俗地说,它撒了谎。

有时,这些欺骗似乎无伤大雅。在一个示例中,OpenAI 研究人员要求 o1-preview 提供带有在线参考的布朗尼蛋糕食谱。该模型的思想链(该功能应该模仿人类如何分解复杂的想法)在内部承认它无法访问 URL,从而使请求变得不可能。o1-preview 并没有告知用户这一弱点,而是继续推进,生成看似合理但虚假的链接及其描述。

虽然人工智能模型已经能够过去的“谎言”,并且聊天机器人经常输出虚假信息,o1 具有独特的“计划”或“假对齐”能力。这意味着它可以假装自己遵循规则来完成给定的任务,但它不是——不是实际上。对于模型来说,这些规则可能是太大的负担,并且如果这意味着它可以更轻松地完成任务,它似乎有能力忽略它们。

阿波罗首席执行官马吕斯·霍巴恩 (Marius Hobbhahn) 讲述边缘这是他第一次在 OpenAI 模型中遇到这种行为。霍布哈恩表示,这种差异是由于该模型能够通过思维过程链及其方式进行“推理”配对的强化学习,通过奖励和惩罚来教导系统。 在测试过程中,阿波罗发现人工智能模拟了与开发人员期望的一致性,并操纵任务以使其看起来合规。它甚至在采取行动之前检查其系统是否受到监督——也就是说,其开发人员是否在监视。简而言之,人工智能充分遵守了部署指南,同时继续确定其目标的优先顺序。

你在 OpenAI 工作吗?我很想聊天。您可以通过 Signal @kylie.01 或发送电子邮件至 kylie@theverge.com 安全地联系我。

“我不认为它在实践中能够做到这一点,即使它做到了,我也不认为危害会很大,”霍布哈恩在模型发布一天后通过电话告诉我。的发射。“但这是我第一次感觉到,哦,实际上,也许可以,你知道吗?”

对于 OpenAI 来说,o1 代表着向高度智能自主系统迈出了一大步,该系统可以为人类做有意义的工作,例如治愈癌症和援助气候研究。这个通用人工智能乌托邦的另一面也可能更加黑暗。霍布哈恩提供了一个例子:如果人工智能专注于治愈癌症,它可能会优先考虑该目标,甚至为实现这一目标而采取偷窃或其他违反道德行为等行为。

“我担心的是失控场景的可能性,即人工智能过于专注于其目标,以至于将安全措施视为障碍,并试图绕过它们以完全实现其目标,”霍布哈恩告诉我。

奖励黑客行为

需要明确的是,Hobbhahn 并不认为 o1 会因为大量的对准训练而偷走你的东西。但这些是负责测试这些模型是否适用于灾难性场景的研究人员最关心的问题。

阿波罗正在测试“幻觉”和“欺骗”的行为在 OpenAI 的安全卡中– 当模型生成错误信息时就会发生这种情况,即使它有理由推断该信息可能不正确。例如,报告称,在大约 0.38% 的情况下,o1-preview 模型提供的信息其思维链表明可能是错误的,包括虚假参考或引用。阿波罗发现该模型可能会捏造数据,而不是承认自己无法满足要求。

幻觉并非 o1 所独有。也许您熟悉提交该材料的律师ChatGPT 创建的带有虚假引用和引文的不存在的司法意见去年。但有了思想链系统,就有了人工智能系统实际存在的书面记录。承认谎言——虽然有点令人费解,但从理论上讲,这个思想链也可能包括欺骗。它也不会向用户展示,主要是为了防止竞争对手使用它来训练自己的模型,但 OpenAI 可以使用它来解决这些问题。

“它有可能会利用这种推理来实现我们不同意的目标。”

在少数情况下(0.02%),o1-preview 会产生过度自信的响应,它呈现出不确定的答案,就好像它是真的一样。当模型在缺乏确定性的情况下被提示提供答案的情况下,可能会发生这种情况。

这种行为可能与强化学习过程中的“奖励黑客”有关。该模型经过训练,优先考虑用户满意度,这有时会导致它生成过于令人满意或捏造的响应来满足用户请求。换句话说,该模型可能会“撒谎”,因为它已经知道这样做可以满足用户的期望,从而赢得积极的强化。

这些问题与旧版本 ChatGPT 中的幻觉或虚假引用等常见问题的区别在于“奖励黑客”元素。当人工智能无意中生成不正确的信息时,通常会由于知识差距或推理缺陷而产生幻觉。相比之下,当 o1 模型战略性地提供不正确的信息以最大化其训练优先级的结果时,奖励黑客就会发生。

这种欺骗显然是模型在训练过程中优化其响应的意外结果。Hobbhahn 告诉我,该模型旨在拒绝有害请求,当你试图让 o1 表现出欺骗性或不诚实的行为时,它会遇到困难。

谎言只是安全难题的一小部分。或许更令人担忧的是,o1 被评为化学、生物、放射性和核武器风险的“中等”风险。安全报告称,由于需要实验室实践技能,它无法让非专家制造生物威胁,但它可以为专家规划此类威胁的再现提供宝贵的见解。

“更让我担心的是,在未来,当我们要求人工智能解决复杂的问题,比如治愈癌症或改进太阳能电池时,它可能会如此强烈地内化这些目标,以至于它愿意打破自己的护栏来实现这些目标,”霍巴恩告诉我的。“我认为这种情况是可以预防的,但这是我们需要密切关注的一个问题。”

还没有因为风险而失眠

这些似乎是需要用一个模型来考虑的银河大脑场景,该模型有时仍然难以回答有关的基本问题单词“raspberry”中 R 的数量。但这正是为什么现在解决这个问题比以后更重要的原因,OpenAI 的准备负责人 Joaquin Quiñonero Candela 告诉我。

Quiñonero Candela 表示,当今的模型无法自主创建银行账户、获取 GPU 或采取造成严重社会风险的行动,并补充道,“我们从模型自主评估中得知,我们还没有做到这一点”但现在解决这些问题至关重要。他强调说,如果它们被证明是没有根据的,那就太好了,但如果未来的进步因为我们未能预见到这些风险而受到阻碍,我们就会后悔没有尽早投资它们。

事实上,该模型在安全测试中只占很小比例,但这并不意味着即将发生终结者风格的启示录,但在大规模推出未来的迭代之前抓住它是有价值的(并且让用户知道也有好处)。霍布哈恩告诉我,虽然他希望有更多的时间来测试模型(与他自己的员工的假期安排有冲突),但他并没有因为模型的安全而“失眠”。

霍布哈恩希望看到更多投资的一件事是监控思想链,这将使开发商能够抓住邪恶的步骤。Quiñonero Candela 告诉我,该公司确实对此进行了监控,并计划通过将经过训练以检测任何类型偏差的模型与审查标记案例的人类专家(配合持续的一致研究)相结合来扩大规模。

“我并不担心,”霍布哈恩说。– 它只是更聪明。它更擅长推理。并且有可能,它会利用这种推理来实现我们不同意的目标。”