AI チャレンジでは人間レベルの知能をテストする問題を募集します

2024-10-08 05:27:44

サンフランシスコの人工知能分野の主要企業 2 人が、Google Gemini や OpenAI の o1 などの大規模言語モデル (LLM) の機能をテストできる問題を考え出すよう一般の人々に挑戦しました。LLM がトレーニングされる膨大なデータの準備を専門とする Scale AI は、Center for AI Safety (CAIS) と提携して、「人類最後の試験」という取り組みを立ち上げました。

artificial intelligence — クレジット: CC0 パブリックドメイン

サンフランシスコの人工知能分野をリードする 2 人挑戦しましたGoogle Gemini や OpenAI の o1 などの大規模言語モデル (LLM) の機能をテストできる質問を一般の人々に考えてもらいます。LLM がトレーニングされる膨大なデータの準備を専門とする Scale AI は、Center for AI Safety (CAIS) と提携して、「人類最後の試験」という取り組みを立ち上げました。

テストで選ばれた上位 50 問を思いついた人には 5,000 米ドル (3,800 ポンド) の賞金が与えられるとのことで、Scale と CAIS は、目標は、「史上最大かつ最も広範な専門家の連合です。」

なぜこれを行うのでしょうか?主要な LLM はすでにインテリジェンスに関して確立された多くのテストに合格しています。数学そして法, しかし、これがどれほど意味があるのかを確信するのは困難です。多くの場合、トレーニングの対象となる膨大な量のデータ (インターネット上のすべてのもののかなりの割合を含む) により、答えを事前に学習している可能性があります。

データはこの分野全体の基礎となります。それは後ろにありますパラダイムシフト従来のコンピューティングから AI へ、これらのマシンに何をすべきかを「伝える」ことから「示す」ことへ。これには、優れたトレーニングデータセットだけでなく、優れたテストも必要です。開発者は通常、トレーニングにまだ使用されていないデータ (専門用語で「テストデータセット」と呼ばれます) を使用してこれを行います。

LLM がまだ司法試験などの確立された試験の答えを事前に学習することができないとしても、おそらくすぐに学習できるようになるでしょう。AI分析サイトエポック推定2028 年には、人間がこれまでに書いたものすべてを AI が事実上読み取れるようになるでしょう。同様に重要な課題は、ルビコンを越えた後に AI を評価し続ける方法です。

もちろん、インターネットは常に拡大しており、毎日何百万もの新しいアイテムが追加されています。それでこれらの問題は解決できるでしょうか？

おそらく、しかしこれは「」と呼ばれる別の潜伏性の困難につながります。モデルの崩壊「将来の AI トレーニングセットに再循環する AI 生成のマテリアルがインターネットにますます溢れかえるにつれ、AI のパフォーマンスがますます低下する可能性があります。この問題を克服するために、多くの開発者はすでに AI と人間のやり取りからデータを収集し、新たなデータを追加しています。」トレーニングとテスト用のデータ。

一部の専門家は、AIも人間と同じように、現実世界を動き回り、自らの経験を獲得する「身体化」する必要があると主張する。テスラが自社の自動車で何年も同じことを行ってきたことを理解するまでは、これは突飛なことのように聞こえるかもしれません。もう 1 つのチャンスは、Ray-Ban の Meta の人気スマートグラスなど、人間のウェアラブルです。これらにはカメラとマイクが装備されており、使用できます人間を中心とした膨大な量のビデオおよびオーディオデータを収集します。

狭いテスト

しかし、たとえそのような製品が将来的に十分なトレーニングデータを保証したとしても、特に知能をどのように定義して測定するかという難問は依然として存在します。汎用人工知能(AGI)、同等以上のAIを意味します。人間の知性。

従来の人間の IQ テストは、多面的な性質言語から数学、共感、方向感覚まで、あらゆるものを含む知性。

AI で使用されるテストにも同様の問題があります。テキストの要約、理解、描画などのタスクをカバーする確立されたテストが多数あります。正しい推論情報から、人間のポーズやジェスチャーを認識し、マシンビジョンを利用します。

一部のテストは廃止されていますが、通常、なぜならAI は非常に優れた成績を収めていますが、タスクに特化しているため、知能の非常に狭い尺度になります。たとえば、チェスのAIストックフィッシュ人間史上最高得点を記録したマグナス・カールセンをはるかに上回っています。エロ評価システム。しかし、Stockfish は言語を理解するなど、他のタスクを実行することができません。そのチェスの能力とより広範な知性を混同するのは明らかに間違いです。

しかし、AI がより広範なインテリジェントな動作を示している現在、その進歩を比較および測定するための新しいベンチマークを考案することが課題となっています。注目すべきアプローチの 1 つは、フランスの Google エンジニア、フランソワ・ショレ氏によるものです。彼は主張する真の知性とは、学習を新しい目に見えない状況に適応し、一般化する能力にあるということです。2019 年に、彼は、抽象的なルールを推論して適用する AI の能力をテストするために設計された、シンプルなビジュアルグリッドの形式のパズルのコレクションである「抽象および推論コーパス」(ARC) を考案しました。

とは異なり以前のベンチマークARC は、含まれるオブジェクトに関する情報を含む数百万枚の画像で AI をトレーニングすることによって視覚オブジェクト認識をテストします。ARC は事前に最小限の例を提供します。AI はパズルのロジックを理解する必要があり、考えられる答えをすべて学習するだけでは済みません。

ARC テストではありますが、特に難しいことはありません人間が解く場合、スコア 85% に到達した最初の AI システムには 60 万米ドルの賞金が与えられます。これを書いている時点では、その時点からは程遠いです。最近の 2 つの主要な LLM、OpenAI の o1 プレビューと Anthropic の Sonnet 3.5、両方のスコアARC 公開リーダーボード (として知られています) で 21%ARC-AGI-パブ）。

別の最近の試みOpenAIのGPT-4oを使用スコアは50%しかし、このアプローチでは、テストに最適な答えを与えるものを選択する前に、何千もの可能な解決策が生成されたため、多少物議を醸しています。それでも、これは賞を受賞するきっかけにはならない、あるいは人間のパフォーマンスに匹敵するものではなかった。90%以上。

ARC は、今日でも AI の真の知能をテストする最も信頼できる試みの 1 つですが、Scale/CAIS イニシアチブは、説得力のある代替案の模索が続いていることを示しています。(興味深いことに、入賞した問題の一部は決して目にすることができないかもしれません。AI が試験問題を覗き見することがないように、それらはインターネット上に公開されません。)

私たちは、機械が人間レベルの推論にいつ近づくのかを知る必要がありますが、これによって安全性、倫理的、道徳的な疑問が生じます。その時点で、おそらく、超知能をテストする方法というさらに難しい試験問題が残されることになるでしょう。それはさらに気が遠くなる作業であり、私たちは解決する必要があります。

この記事はから転載されています会話クリエイティブ・コモンズ・ライセンスに基づいて。読んでください元の記事。

引用:AI チャレンジは人間レベルの知能をテストする問題を募集します (2024 年 10 月 7 日)2024 年 10 月 8 日に取得https://techxplore.com/news/2024-10-ai-human-intelligence.html より

この文書は著作権の対象です。個人的な研究や研究を目的とした公正な取引を除いて、書面による許可なく一部を複製することができます。コンテンツは情報提供のみを目的として提供されています。

他の言語バージョンも参照: English | 简中 | 正體 | 日本語 | 한국인 | हिंदी | Español