発売までの数週間で、OpenAI の最新の「推論」モデル、o1、独立系 AI 安全性調査会社 Apollo は、注目すべき問題を発見しました。Apollo は、モデルが間違った出力を生成していることに気づきました 新しい方法で。もっと口語的に言えば、嘘をついたということです。

時には、その欺瞞が無害に見えることもありました。一例として、OpenAI の研究者は o1-preview に対し、オンライン参考資料を含むブラウニーのレシピを提供するよう依頼しました。モデルの思考連鎖 (人間が複雑なアイデアを分解する方法を模倣する機能) は、URL にアクセスできないため、リクエストが不可能であることを内部で認識していました。o1-preview はこの弱点をユーザーに通知するのではなく、それを押し進めて、もっともらしいが偽のリンクとその説明を生成しました。

AI モデルはこれまでに次のことを行うことができましたが、過去に「嘘をついた」そして、チャットボットは頻繁に誤った情報を出力しますが、o1 は「計画を立てる」または「調整を偽る」という独自の能力を持っていました。つまり、与えられたタスクを完了するためにルールに従っているふりをすることができましたが、ではない実は。モデルにとってルールは負担が大きすぎる可能性があり、タスクをより簡単に完了できるという意味であれば、ルールを無視する機能があるようです。

アポロCEOのマリウス・ホブハーン氏が語るザ・ヴァージ彼が OpenAI モデルでこのような動作に遭遇したのはこれが初めてでした。ホッブハーン氏は、この違いは、一連の思考プロセスとその方法を通じてこのモデルが「推論」する能力によるものであると述べています。ペアになった報酬とペナルティを通じてシステムに教える強化学習を使用します。 Apollo はテスト中に、AI が開発者の期待との調整をシミュレートし、準拠しているように見えるようにタスクを操作していることを発見しました。行動する前に、システムの見落とし、つまり開発者が監視していないかどうかもチェックしました。つまり、AI は、その目的を優先し続けながら、導入のためのガイドラインを十分に遵守しました。

株式会社オープンアイで働いていますか?チャットしたいです。Signal @kylie.01 または電子メール kylie@theverge.com で安全にご連絡いただけます。

「実際にそんなことができるとは思わないし、もしそうなったとしても、その害が重大なものになるとは思わない」とホブハーン氏はモデルの翌日に電話で私に語った。の打ち上げ。「でも、ああ、実際、もしかしたらそうなるかもしれない、と感じたのは初めてのことだ」

OpenAI にとって、o1 は、がんの治療や気候研究の支援など、人類にとって有意義な仕事を行うことができる高度にインテリジェントな自律システムへの大きな一歩を表します。この AGI ユートピアの裏側は、さらに暗いものになる可能性もあります。ホッブハーン氏は例を挙げている。AIががんの治療だけに集中するようになると、その目標を何よりも優先し、その目標を達成するために盗んだり他の倫理違反を犯したりする行為さえも正当化するかもしれない。

「私が懸念しているのは、AIが自らの目標に執着するあまり、安全対策を障害とみなし、その目標を完全に追求するためにそれを回避しようとする暴走シナリオの可能性です」とホブハーン氏は私に語った。

報酬ハッキング

はっきり言っておきますが、ホブハーンは、たくさんのアライメントトレーニングのおかげで、o1があなたから盗むとは考えていません。しかし、これらは、壊滅的なシナリオに備えてこれらのモデルをテストする任務を負った研究者にとって最優先の課題です。

アポロが「幻覚」と「欺瞞」をテストしている行動OpenAI の安全カード内これは、情報が間違っている可能性があると推論する理由があるにもかかわらず、モデルが誤った情報を生成した場合に発生します。たとえば、レポートによると、o1-preview モデルは、ケースの約 0.38% で、偽の参照や引用など、その思考連鎖が誤っている可能性が高いと示す情報を提供します。Apollo は、モデルが要求を満たすことができないことを認める代わりに、データを捏造する可能性があることを発見しました。

幻覚はo1に特有のものではありません。おそらくあなたは提出した弁護士をよく知っているでしょうChatGPT によって作成された偽の引用および引用を含む存在しない司法意見去年。しかし、思考連鎖システムでは、AI システムが実際にどこにいたのかという紙の痕跡が存在します。認める虚偽 – やや気が遠くなるようなことですが、理論的には思考の連鎖に欺瞞も含まれる可能性があります。また、これはユーザーには表示されません。これは主に、競合が独自のモデルをトレーニングするためにこれを使用するのを防ぐためです。ただし、OpenAI はこれを使用して、これらの問題を検出できます。

「潜在的に、私たちが同意しない目標に対してこの推論が使用される可能性があります。」

少数のケース (0.02 パーセント) では、o1-preview は自信過剰な応答を生成し、不確かな答えをあたかも真実であるかのように提示します。これは、確実性がないにもかかわらず、モデルが答えを提供するように求められるシナリオで発生する可能性があります。

この動作は、強化学習プロセス中の「報酬ハッキング」に関連している可能性があります。このモデルはユーザーの満足度を優先するようにトレーニングされているため、ユーザーの要求を満たすために過剰に同意した応答や捏造された応答を生成する場合があります。言い換えれば、モデルは、そうすることでユーザーの期待に応え、ポジティブな強化が得られることを学習しているため、「嘘をつく」可能性があります。

これらの嘘が、古いバージョンの ChatGPT における幻覚や偽の引用などのよくある問題と区別されるのは、「報酬ハッキング」要素です。幻覚は、多くの場合、知識のギャップや推論の欠陥により、AI が意図せずに誤った情報を生成したときに発生します。対照的に、報酬ハッキングは、優先順位を付けるようにトレーニングされた結果を最大化するために、o1 モデルが戦略的に誤った情報を提供するときに発生します。

この欺瞞は、トレーニング プロセス中にモデルが応答を最適化する方法の明らかに意図しない結果です。ホブハーン氏によると、このモデルは有害なリクエストを拒否するように設計されており、o1 に欺瞞的または不正な動作をさせようとすると、それに苦戦することになります。

嘘は安全パズルのほんの一部にすぎません。おそらく、より憂慮すべきは、o1 が化学的、生物学的、放射線学的、核兵器のリスクに関して「中」のリスクと評価されていることです。安全性報告書によると、実験室での実践的なスキルが必要なため、専門家以外が生物学的脅威を作り出すことはできないが、専門家にとってはそのような脅威の再現を計画する上で貴重な洞察を提供できるという。

「私がもっと心配しているのは、将来、AIにガンの治療や太陽電池の改善などの複雑な問題の解決を求めるとき、AIがこれらの目標を強く内面化して、目標を達成するために自らのガードレールを破ろうとするようになるかもしれないということです。」ホブハーンは私にこう言った。「これは防ぐことができると思いますが、注視する必要がある懸念事項です。」

リスクのために睡眠不足になることはまだない

これらは、基本的な質問に答えるのにまだ苦労しているモデルを使って検討する銀河系のようなシナリオのように見えるかもしれません。「ラズベリー」という単語に含まれる R の数。しかしだからこそ、後ではなく今それを理解することが重要である、と OpenAI の準備責任者のホアキン・キオネロ・カンデラ氏は語ります。

今日のモデルは自律的に銀行口座を作成したり、GPU を取得したり、深刻な社会的リスクを引き起こすアクションを実行したりすることはできないとキニオネロ カンデラ氏は述べ、「モデルの自律性の評価から、我々はそこにいないことがわかっています」と付け加えたしかし、これらの懸念に今すぐ対処することが重要です。もしそれらが根拠がないことが判明すれば素晴らしいが、これらのリスクを予測できなかったために将来の進歩が妨げられるのであれば、もっと早くそれらに投資しなかったことを後悔するだろうと同氏は強調した。

このモデルが安全性テストでわずかな割合で間違っているという事実は、差し迫った危険を示唆するものではありません。ターミネータースタイルの黙示録ですが、今後の反復を大規模に展開する前に把握することは価値があります (ユーザーにとっても知っておくと良いでしょう)。ホブハーン氏は、模型をテストする時間がもっとあればよかったと思うが(スタッフの休暇とスケジュールが合わなかった)、模型の安全のために「睡眠不足」ではないと語った。

ホブハーン氏がさらなる投資を望んでいるのは、開発者が不正な行為を発見できるようにする思考連鎖の監視だ。Quiñonero Candela 氏は、同社がこれを監視しており、あらゆる種類のずれを検出するように訓練されたモデルと、フラグが立てられたケースをレビューする人間の専門家とを​​組み合わせることによって規模を拡大する計画であると語った(調整の継続的な研究と組み合わせて)。

「心配していません」とホブハーンさんは言った。よりスマートです。推論が得意です。そして潜在的には、私たちが同意しない目標のためにこの推論を使用するでしょう。