在發布前幾週OpenAI 最新的「推理」模型,o1,獨立AI安全研究公司Apollo發現了一個值得注意的問題。阿波羅意識到模型產生了錯誤的輸出 以一種新的方式。或者,更通俗地說,它撒了謊。

有時,這些欺騙似乎無傷大雅。在一個例子中,OpenAI 研究人員要求 o1-preview 提供帶有線上參考的布朗尼蛋糕食譜。該模型的思想鏈(該功能應該模仿人類如何分解複雜的想法)在內部承認它無法存取 URL,從而使請求變得不可能。o1-preview 並沒有告知使用者這項弱點,而是繼續推進,產生看似合理但虛假的連結及其描述。

雖然人工智慧模型已經能夠過去的“謊言”,而聊天機器人經常輸出虛假訊息,o1 具有獨特的「計劃」或「假對齊」能力。實際上。對於模型來說,這些規則可能是太大的負擔,如果這意味著它可以更輕鬆地完成任務,它似乎有能力忽略它們。

阿波羅執行長馬呂斯‧霍巴恩 (Marius Hobbhahn) 所述邊緣這是他第一次在 OpenAI 模型中遇到這種行為。霍布哈恩表示,這種差異是由於該模型能夠透過思維過程鍊及其方式進行“推理”配對的強化學習,透過獎勵和懲罰來教導系統。 在測試過程中,阿波羅發現人工智慧模擬了與開發人員期望的一致性,並操縱任務以使其看起來合規。它甚至在採取行動之前檢查其係統是否受到監督——也就是說,其開發人員是否在監視。簡而言之,人工智慧充分遵守了部署指南,同時繼續確定其目標的優先順序。

你在 OpenAI 工作嗎?我很想聊天。您可以透過 Signal @kylie.01 或發送電子郵件至 kylie@theverge.com 安全地與我聯繫。

「我不認為它在實踐中能夠做到這一點,即使它做到了,我也不認為危害會很大,」霍布哈恩在模型發布一天后通過電話告訴我。“但這是我第一次感覺到,哦,實際上,也許可以,你知道嗎?”

對 OpenAI 來說,o1 代表著向高度智慧自主系統邁出了一大步,該系統可以為人類做有意義的工作,例如治癒癌症和援助氣候研究。這個通用人工智慧烏托邦的另一面也可能更加黑暗。霍布哈恩提供了一個例子:如果人工智慧專注於治癒癌症,它可能會優先考慮該目標,甚至為實現這一目標而採取偷竊或其他違反道德行為等行為。

「我擔心的是失控場景的可能性,即人工智慧過於專注於其目標,以至於將安全措施視為障礙,並試圖繞過它們以完全實現其目標,」霍布哈恩告訴我。

獎勵駭客行為

需要明確的是,Hobbhahn 並不認為 o1 會因為大量的對準訓練而偷走你的東西。但這些是負責測試這些模型是否適用於災難性情境的研究人員最關心的問題。

阿波羅正在測試「幻覺」和「欺騙」的行為在 OpenAI 的安全卡中– 當模型產生錯誤訊息時就會發生這種情況,即使它有理由推斷資訊可能不正確。例如,報告稱,在大約 0.38% 的情況下,o1-preview 模型提供的資訊其思維鏈表明可能是錯誤的,包括虛假參考或引用。阿波羅發現該模型可能會捏造數據,而不是承認自己無法滿足要求。

幻覺並非 o1 獨有。也許您熟悉提交該資料的律師ChatGPT 創建的帶有虛假引用和引文的不存在的司法意見去年。但有了思想鏈系統,就有了人工智慧系統實際存在的書面記錄。承認謊言——雖然有點令人費解,但從理論上講,這個思想鏈也可能包括欺騙。它也不會向用戶展示,主要是為了防止競爭對手使用它來訓練自己的模型,但 OpenAI 可以使用它來解決這些問題。

“它有可能會利用這種推理來實現我們不同意的目標。”

在少數情況下(0.02%),o1-preview 會產生過度自信的回應,它呈現出不確定的答案,就好像它是真的一樣。當模型在缺乏確定性的情況下被提示提供答案的情況下,可能會發生這種情況。

這種行為可能與強化學習過程中的「獎勵駭客」有關。該模型經過訓練,優先考慮用戶滿意度,這有時會導致它產生過於令人滿意或捏造的回應來滿足用戶請求。換句話說,該模型可能會“撒謊”,因為它已經知道這樣做可以滿足用戶的期望,從而贏得積極的強化。

這些問題與舊版 ChatGPT 中的幻覺或虛假引用等常見問題的區別在於「獎勵駭客」元素。當人工智慧無意中產生不正確的資訊時,通常會因為知識差距或推理缺陷而產生幻覺。相較之下,當 o1 模型策略性地提供不正確的資訊以最大化其訓練優先順序的結果時,獎勵駭客就會發生。

這種欺騙顯然是模型在訓練過程中優化其反應的意外結果。Hobbhahn 告訴我,該模型旨在拒絕有害請求,當你試圖讓 o1 表現出欺騙性或不誠實的行為時,它會遇到困難。

謊言只是安全難題的一小部分。或許更令人擔憂的是,o1 被評為化學、生物、放射性和核武風險的「中等」風險。安全報告稱,由於需要實驗室實務技能,它無法讓非專家製造生物威脅,但它可以為專家規劃此類威脅的再現提供寶貴的見解。

「更讓我擔心的是,在未來,當我們要求人工智慧解決複雜的問題,例如治癒癌症或改進太陽能電池時,它可能會如此強烈地內化這些目標,以至於它願意打破自己的護欄來實現這些目標,」霍巴恩告訴我的。“我認為這種情況是可以預防的,但這是我們需要密切關注的問題。”

還沒有因為風險而失眠

這些似乎是需要用一個模型來考慮的銀河大腦場景,該模型有時仍然難以回答相關的基本問題單字「raspberry」中 R 的數量。但這正是為什麼現在解決這個問題比以後更重要的原因,OpenAI 的準備負責人 Joaquin Quiñonero Candela 告訴我。

Quiñonero Candela 表示,當今的模式無法自主創建銀行帳戶、獲取 GPU 或採取造成嚴重社會風險的行動,並補充道,「我們從模型自主評估中得知,我們還沒有做到這一點」但現在解決這些問題至關重要。他強調說,如果它們被證明是沒有根據的,那就太好了,但如果未來的進步因為我們未能預見這些風險而受到阻礙,我們就會後悔沒有儘早投資它們。

事實上,該模型在安全測試中只佔很小比例,但這並不意味著即將發生終結者風格的啟示錄,但在大規模推出未來的迭代之前抓住它是有價值的(並且讓用戶知道也有好處)。霍布哈恩告訴我,雖然他希望有更多的時間來測試模型(與他自己的員工的假期安排有衝突),但他並沒有因為模型的安全而「失眠」。

霍布哈恩希望看到更多投資的一件事是監控思想鏈,這將使開發商能夠抓住邪惡的步驟。Quiñonero Candela 告訴我,該公司確實對此進行了監控,並計劃通過將經過訓練以檢測任何類型偏差的模型與審查標記案例的人類專家(配合持續的一致研究)相結合來擴大規模。

「我並不擔心,」霍布哈恩說。– 它只是更聰明。它更擅長推理。並且有可能,它會利用這種推理來實現我們不同意的目標。