AI 研究者が ChatGPT の数学と推論の進歩の新バージョンについて語る

2024-09-18 14:19:39

9月12日、OpenAIは新しいChatGPTモデルを発表したが、同社によれば、推論に苦労した以前のバージョンよりも数学と科学が大幅に優れているという。以前のモデルは、国際数学オリンピック (高校数学の最高峰の大会) の予選試験でわずか 13% の得点しか得られませんでした。「o1」と呼ばれる新しいモデルでは、そのスコアが 83% に上昇しました。

equations — クレジット: Unsplash/CC0 パブリックドメイン

9 月 12 日、OpenAI発表された新しい ChatGPT モデルは、推論に苦労した以前のバージョンよりも数学と科学が大幅に優れていると同社は述べています。以前のモデルは、国際数学オリンピック (高校数学の最高峰の大会) の予選試験でわずか 13% の得点しか得られませんでした。「o1」と呼ばれる新しいモデルでは、そのスコアが 83% に上昇しました。

ワシントン大学ポール G. アレンコンピューターサイエンス & エンジニアリングスクールの博士研究員である Niloofar Mireshghallah は、ChatGPT などの大規模な言語モデルのプライバシーと社会的影響を研究しています。

UW Newsが彼女にその理由を語った。数学そしてその推論は、これらの人工知能モデルと、OpenAI の新しいリリースについて一般の人々が知っておくべきことに非常に疑問を投げかけています。

ChatGPT およびその他の LLM次にどの単語が来るかを予測して作業するとても流暢に。LLM にとって数学と推論がこれほど難しいのはなぜですか?

主な理由は 2 つあります。1 つは、モデルが次の単語の予測を行うときにルールや原則を「理解する」のが難しいことです。数学を行うには、少し行ったり来たりして推測する必要があります。より論理的または常識的な推論に関して言えば、難しさのもう 1 つの理由は、私の顧問である Yejin Choi が言うように、次のとおりです。常識は暗黒物質のようなもの。それはそこにありますが、私たちはそれを見たり、言ったりしません。

冷蔵庫のドアを開けっ放しにしてはいけないことはわかっていますが、それを言っている文章はほとんどありません。何かのテキストがなければ、モデルはそれを認識しません。同じことが当てはまります社会規範または他の形式の推論！

OpenAIの主任科学者であるヤクブ・パチョッキ氏はこう語った。ニューヨークタイムズ: 'このモデルは時間がかかることがあります。英語で問題を徹底的に考え、それを分解して角度を探り、最良の答えを提供することができます。」これは大きな変化ですか？この新型モデルは「思考」に近いことをやっているのだろうか？

この「時間をかけて」ということ全体は、起こっていることを単純化したものであり、これを「」と呼んでいます。テスト時の計算「これまで、大企業はモデルとトレーニングデータの両方のサイズを大きくすることでモデルをスケールしていました。しかし、企業はそこで飽和状態に達した可能性があります。つまり、これ以上の事前準備は存在しないのです。」トレーニングデータ、モデルのサイズを大きくしてもあまり役に立たない可能性があります。このテスト時間への投資は、モデルが内部推論を行うのに役立ち、問題を分解して複数の反復を実行できるようになります。

これは思考連鎖推論と呼ばれるもので、数学の問題で自分の成果を示すのと似ていますが、言語と思考のタスクに適用されます。AI は単に最終的な答えを与えるのではなく、推論プロセスの各ステップを書き留めながら段階的に動作します。

「サリーが 3 個のリンゴを持っていて、2 個を友達にあげた場合、彼女にはいくつ残っていますか?」という文章題を解くように求められたと想像してください。通常の AI の応答は、単に「リンゴ 1 個」と答えるかもしれません。

しかし、思考連鎖推論を使用すると、次のようになります。

サリーはリンゴ 3 個から始まります
彼女はリンゴを2個あげます
残りの数を調べるには、3–2 = 1 を引きます。
したがって、サリーにはリンゴが 1 個残っています

この段階的なプロセスは、いくつかの点で役立ちます。AI の推論がより透明になるため、AI がどのように答えに到達したかを確認でき、間違いがあった場合には、どこで問題が発生したかを特定できる可能性があります。

思考連鎖推論は、複数のステップからなる質問への回答、数学の問題の解決、複数の論理ステップを必要とする状況の分析など、より複雑なタスクに特に役立ちます。

ある意味、モデルは単に次の単語の予測を行うのではなく、独自の応答をテストできます。以前の問題の 1 つは、モデルが 1 つの単語を間違って予測した場合、コミットする必要があり、モデルが脱線してしまうことでした。以下のすべての予測は部分的にその間違った予測に基づいています。

このような思考連鎖の推論と応答生成の形式は、これまでのところ人間の思考に最も近い手順です。これが内部的にどのように行われるのかは完全にはわかりませんが、推論完全に機能しますが、モデルは時間をかけて自身の応答をテストできるようになりました。研究者らは、モデルが複数の選択肢を提示されたときに自分の間違いを見つけ、自分の回答をランク付けすることを示しました。

たとえば、最近の論文[に投稿されましたarXivプレプリントサーバー] で、LLM は応答を生成するときに誕生日のサプライズを台無しにするが、応答が適切かどうかを尋ねられると間違いに気づくことを示しました。したがって、この自己テストは、モデルがより論理的な応答を導き出すのに役立ちます。

企業がこのような新しい AI モデルを発表するとき、人々は何を知っておき、何に注意を払う必要があるのでしょうか?

注意すべきことの 1 つは、モデルの出力を事実確認し、モデルが「考えて」時間をかけることにだまされないことだと思います。はい、反応は良くなってきていますが、障害モードはまだあります。

詳細情報:Niloofar Mireshghallah 他、LLM は秘密を守れますか?文脈整合性理論による言語モデルのプライバシーへの影響のテスト、arXiv（2023年）。DOI: 10.48550/arxiv.2310.17884

雑誌情報: arXiv

引用:AI 研究者が数学と推論における ChatGPT の進歩の新バージョンについて語る (2024 年 9 月 18 日)2024 年 9 月 18 日に取得https://techxplore.com/news/2024-09-ai-discusses-version-chatgpt-advances.html より

この文書は著作権の対象です。個人的な研究や研究を目的とした公正な取引を除き、書面による許可なく一部を複製することができます。コンテンツは情報提供のみを目的として提供されています。

他の言語バージョンも参照: English | 简中 | 正體 | 日本語 | 한국인 | हिंदी | Español