Large language models are better at predicting what comes next than what came before, grammatically
トレーニング中の FW モデルと BW モデルの検証損失曲線。一貫して、BW 損失は FW 損失よりも大きくなります。これは学習率のウォーム リスタートを通じて継続し、損失の増加を引き起こします。クレジット:arXiv(2024年)。DOI: 10.48550/arxiv.2401.17505

研究者らは、GPT-4 のような AI の大規模言語モデルは、文の前にあるものよりも次に来るものを予測する方が優れていることを発見しました。この「時間の矢」効果は、自然言語の構造に対する私たちの理解と、これらのモデルがそれを理解する方法を再構築する可能性があります。

GPT-4 などの大規模言語モデル (LLM) は、テキスト生成、コーディング、チャットボットの操作、翻訳などのタスクに不可欠になっています。LLM の核心は、前の単語に基づいて文内の次の単語を予測することによって機能します。これは、LLM の機能の多くを推進するシンプルですが強力なアイデアです。

しかし、これらのモデルに逆方向予測、つまり「時間的に遡って」移動し、後の単語から前の単語を判断するように依頼するとどうなるでしょうか?

この疑問をきっかけに、EPFL のクレメント ホンラー教授とゴールドスミス (ロンドン) のジェレミー ウェンガーは、LLM が最後から逆向きにストーリーを構築できるかどうかを探りました。EPFL の機械学習研究者である Vassilis Papadopoulos と協力して、彼らは驚くべきことを発見しました。それは、LLM は前方予測よりも後方予測の方が一貫して精度が低いということです。

根本的な非対称性

研究者らは、Generative Pre-trained Transformers (GPT)、Gated Recurrent Units (GRU)、Long Short-Term Memory (LSTM) ニューラル ネットワークなど、さまざまなアーキテクチャとサイズの LLM をテストしました。それらのすべてが「時間の矢」バイアスを示し、LLM がテキストを処理する方法における根本的な非対称性を明らかにしました。

ホンラー氏は次のように説明しています。「今回の発見は、LLM はテキスト内の次の単語と前の単語の両方を予測する点では非常に優れているものの、前方よりも後方では常にわずかに劣ることを示しています。前の単語を予測するパフォーマンスは常に数パーセント悪いです」この現象は、次の単語を予測するときよりも、言語間で普遍的であり、あらゆる大規模な言語モデルで観察できます。」

この研究は、情報理論の父であるクロード シャノンの独創的な著作にも関連しています。1951年の論文。シャノンは、シーケンス内の次の文字を予測することが、前の文字を予測するのと同じくらい簡単であるかどうかを調査しました。彼は、両方のタスクは理論的には同じように難しいはずですが、パフォーマンスの差は最小限であったにもかかわらず、人間は後方予測の方が難しいと感じたことを発見しました。

インテリジェントエージェント

「理論的には、順方向と逆方向に違いはないはずですが、LLM はテキストを処理する時間方向にどういうわけか敏感であるようです」とホンラー氏は言います。「興味深いことに、これは言語の出現によってのみ発見できた言語構造の深い性質に関連しています。過去5年間で。」

研究者らは、この特性を情報を処理するインテリジェント エージェントの存在と関連付けています。これは、この特性が知性や生命を検出するツールとして使用でき、より強力な LLM の設計に役立つ可能性があることを意味します。最後に、時間の経過を物理学における創発現象として理解するという長年の探求に新たな方向性を示す可能性がある。の

仕事に掲載されていますarXivプレプリントサーバー。演劇から数学まで

この研究自体には興味深い裏話があり、ホンラー氏はそれについて語った。

「2020年、ジェレミー(ヴェンゲル)とともに、私たちはマニュファクチュア演劇学校と協力して、俳優と一緒に即興演奏を行うチャットボットを作成していました。即興では、多くの場合、何が起こるかを知りながら、物語を続けたいと思うでしょう」最後は次のようになります。

「特定の方法で終わるストーリーを作成するために、チャットボットを「逆方向」に話すようにトレーニングして、その終わりを考慮したストーリーを生成できるようにするというアイデアを思いつきました。たとえば、最後が「彼らは幸せに暮らしました」である場合その後、モデルはそれがどのように起こったかを伝えることができるので、それを行うようにモデルをトレーニングしたところ、前方よりも後方の方が少し悪いことに気付きました。

「ワシリス(パパドプロス)の場合、私たちは後に、これが言語の深遠な特徴であり、時間の経過、知性、因果関係の概念と深いつながりがあるまったく一般的な新しい現象であることに気づきました。演劇プロジェクトとか。」

ホングラー氏がこの作品に興奮したのは、その過程で起こった予期せぬ驚きからかなりの部分が生じている。"のみ演劇プロジェクトとして始まった何かが、最終的には世界について非常に多くのことを理解するための新しいツールを私たちに提供することになるだろう、と言えるでしょう。」

詳細情報:Vassilis Papadopoulos 他、大規模言語モデルの時間の矢、arXiv(2024年)。DOI: 10.48550/arxiv.2401.17505

雑誌情報: arXiv

引用:「時間の矢」効果: LLM は、前に起こったことよりも次に何が起こるかを予測する方が優れています (2024 年 9 月 16 日)2024 年 9 月 16 日に取得https://techxplore.com/news/2024-09-arrow-effect-llms.html より

この文書は著作権の対象です。個人的な研究や研究を目的とした公正な取引を除き、書面による許可なく一部を複製することができます。コンテンツは情報提供のみを目的として提供されています。