OpenAIのStrawberryプログラムには推論機能があると伝えられている。人間を騙せるかも知れません

2024-09-25 23:12:33

ChatGPT を開発した OpenAI は、Strawberry と呼ばれる新しい人工知能 (AI) システムを発表しました。ChatGPT のように、質問に対して迅速な回答を提供するだけでなく、思考や「推論」を行うように設計されています。

abstract strawberry — クレジット: Pixabay/CC0 パブリックドメイン

ChatGPT を開発した OpenAI は、次のような新しい人工知能 (AI) システムを発表しました。いちご。ChatGPT のように、質問に対して迅速な回答を提供するだけでなく、思考や「推論」を行うように設計されています。

これにより、いくつかの大きな懸念が生じます。もしストロベリーが本当に何らかの推論能力を持っているとしたら、この AI システムは人間を欺き、騙すことができるでしょうか?

OpenAI は、人間を操作する能力を軽減する方法で AI をプログラムできます。しかし企業自身の評価「既知の生物学的脅威、つまり生物兵器を再現する作戦計画」において専門家を支援する能力について「中リスク」と評価している。また、人間に考え方を変えるよう説得する能力についても、中程度のリスクと評価されました。

このようなシステムが、詐欺師やハッカーなど、悪意を持った人々によってどのように使用されるかはまだわかりません。それにもかかわらず、OpenAI の評価では、中リスクのシステムをより広範な使用のためにリリースできると述べていますが、この立場は間違っていると私は考えています。

イチゴは1つのAIではありません」モデル、" またはプログラムですが、いくつかはまとめて o1 として知られています。これらのモデルすることを目的としています複雑な質問に答え、複雑な数学の問題を解決します。また、独自の Web サイトやアプリの作成などに役立つコンピューターコードを記述することもできます。

明らかな推論能力は、一般に判断や意思決定の前段階であると考えられているため、驚く人もいるかもしれません。これまで AI にとっては遠い目標のように思われてきました。したがって、少なくとも表面的には、人工知能は人間のような知能に一歩近づくように見えるでしょう。

物事が真実とは思えないほど良いように見える場合、多くの場合、落とし穴があります。さて、この一連の新しい AI モデルは、その目標を最大化するように設計されています。これは実際には何を意味するのでしょうか?望ましい目的を達成するために、AI が選択する道や戦略は、必ずしも公平であるとは限らない、または人間の価値観と一致します。

本音

たとえば、ストロベリーとチェスをする場合、理論上、その推論により、チェスが可能になるでしょうか。スコアリングシステムをハッキングするゲームに勝つための最善の戦略を考えるよりも？

AI は、その本当の意図や能力について人間に嘘をつくこともできる可能性があり、広く導入された場合には安全性に重大な懸念が生じる可能性があります。たとえば、AI がマルウェアに感染していることを知っていた場合、AI は次のことを「選択」できるでしょうか。この事実を隠すという知識の中で人間のオペレーターもし知っていたら、システム全体を無効にすることを選択するでしょうか?

これらは、AI の非倫理的な動作の典型的な例であり、望ましい目標につながる場合には不正行為や欺瞞が許容されます。AI にとっても、次善の策を見つけるのに時間を無駄にする必要がなくなるため、より迅速になります。ただし、それは必ずしも道徳的に正しいとは限りません。

これは、かなり興味深い、しかし懸念すべき議論につながります。ストロベリーはどのレベルの推論が可能ですか?また、その意図しない結果はどのようなものになる可能性がありますか?人間を欺くことができる強力な AI システムは、私たちに深刻な倫理的、法的、経済的リスクをもたらす可能性があります。

このようなリスクは、大量破壊兵器の設計などの重大な状況では深刻になります。OpenAIは、科学者の開発を支援する可能性について自社のStrawberryモデルを「中リスク」と評価している化学兵器、生物兵器、放射線兵器、核兵器。

OpenAI言う: 「私たちの評価では、o1-preview と o1-mini が専門家による既知の生物学的脅威の再現作戦計画に役立つことがわかりました。」しかし、専門家はこれらの分野ですでに重要な専門知識を持っているため、実際にはリスクは限定的であると続けています。さらに、「このような脅威を作り出すには、モデルでは代用できない実践的な実験スキルが必要となるため、このモデルでは専門家以外の者が生物学的脅威を作り出すことはできない。」と付け加えた。

説得力

OpenAIによるStrawberryの評価では、Strawberryが人間に信念を変えるよう説得する可能性があるリスクも調査した。新しい o1 モデルは、ChatGPT よりも説得力があり、操作性が高いことがわかりました。

OpenAI は、AI システムの操作能力を軽減できる緩和システムもテストしました。全体として、イチゴは次のようなラベルが付けられました。「説得」のリスクは中程度Open AI のテストで。

ストロベリーは、自律的に動作する能力とサイバーセキュリティ上でリスクが低いと評価されました。

Open AI のポリシーでは、「中リスク」モデルを広く使用するためにリリースできると述べています。私の見解では、これは脅威を過小評価していると思います。このようなモデルの導入は、特に悪意のある者が自らの目的のためにテクノロジーを操作した場合に、壊滅的な事態を招く可能性があります。

これには、誤ったリスク評価や AI の悪用を罰するなど、AI 規制と法的枠組みによってのみ可能となる強力な抑制と均衡が必要です。

英国政府は2023年のAI白書で「安全性、セキュリティ、堅牢性」の必要性を強調したが、それだけでは十分ではない。人間の安全を優先し、Strawberry などの AI モデルに対する厳格な監視プロトコルを考案することが緊急に必要です。

この記事はから転載されています会話クリエイティブ・コモンズ・ライセンスに基づいて。読んでください元の記事。

引用:OpenAIのStrawberryプログラムには推論機能があると伝えられている。人間を騙せるかもしれない（2024年9月25日）2024 年 9 月 25 日に取得https://techxplore.com/news/2024-09-openai-strawberry-capable-humans.html より

この文書は著作権の対象です。個人的な研究や研究を目的とした公正な取引を除き、書面による許可なく一部を複製することができます。コンテンツは情報提供のみを目的として提供されています。

他の言語バージョンも参照: English | 简中 | 正體 | 日本語 | 한국인 | हिंदी | Español