Q&A: 言語モデル — 困惑している人のためのガイド

2024-01-10 19:22:49

言語モデルは、やや密かに、昨年のニュースの大半を占めてきました。「人工知能」と呼ばれることが多いこれらのシステムは、ChatGPT や Google Bard などのチャットボットの基礎となっています。

Researchers answer common questions about language models like ChatGPT — ワシントン大学の研究チームは、チャットボットの基礎となる技術である言語モデルを説明するガイドを出版した。クレジット：シャンタヌ・クマール/アンスプラッシュ

しかし、ワシントン大学の研究チームは、1 年にわたる AI 騒動のさなかにさえ、多くの人が言語モデルとは何か、そしてそれがどのように機能するかについての正確でわかりやすい情報を見つけるのに苦労していることに気づきました。ニュース記事は最新の進歩や企業の論争に焦点を当てていることがよくありますが、研究論文は一般向けには専門的かつ詳細すぎます。

そこで最近、チームは言語モデルを平易な言葉で説明した論文「Language Models: A Guide for the Perplexed」を出版した。それは利用可能でarXivプレプリントサーバー。

よくある質問への答えを得るために、UW News は筆頭著者である Sofia Serrano 氏に話を聞きました。彼女は、ポール G. アレンコンピューターサイエンス & エンジニアリングスクールの UW 博士課程の学生です。共著者のザンダー・ブランボー氏はアレン・スクールの修士課程の学生。そして主著者であるノア・A・スミスはアレン・スクールの教授である。

簡単に言うと、言語モデルとは何ですか?また、それらはどのように機能するのでしょうか?

セラーノ: 言語モデルは本質的には次の単語を予測するものです。多くのテキストを調べて、他の単語のどのシーケンスの後にどの単語が続く傾向があるかを認識します。通常、言語モデルについて話しているときは、パラメーターと呼ばれるさまざまな数値が多数含まれている大規模な機械学習モデルについて話していることになります。これらの数値は、モデルがトレーニングされるテキストデータの新しいビットごとに微調整されます。

その結果、プロンプトで提供された単語、またはモデルがこれまでに生成した単語を考慮して、全体的にどの単語が次に来るかを予測するのに非常に優れた巨大な数学関数が得られます。これらの大きなモデルは、言語の構造に関するものや、常識や世界知識の範疇に含まれるものもピックアップしていることがわかりました。

あなたは論文の中で「ブラックボックス」という概念を取り上げていますが、これはこの巨大な機能の内部で何が起こっているのかを知ることの難しさを指します。研究者がまだ理解していないことは具体的に何でしょうか?

スミス: 私たちは機械的なレベル、つまり入力を押して予測を行うときに計算される方程式をよく理解しています。また、人々はあたかも実験室の被験者であるかのように、言語モデルに関するあらゆる種類の科学的研究を行っているため、行動のレベルでもある程度の理解が得られます。

私の考えでは、私たちがほとんど理解していないレベルは、数値処理より上の、中間のようなメカニズムです。関数によってキャプチャされている抽象化はありますか?これらの中間計算を切り取って、「ああ、これは概念を理解している、または構文を理解している」と言う方法はありますか?

車のボンネットの下を見るようなものではありません。車を理解している人なら、それぞれの部品が何をするのか、そしてなぜそこにあるのかを説明してくれるはずです。しかし、言語モデルの予測内で何が起こっているかを検査するために私たちが持っているツールはそれほど優れたものではありません。最近では、10 億から場合によっては 1 兆にも及ぶパラメーターがあります。これは誰が見てもわかるほどの数字です。より小さなモデルであっても、数字には個別の意味はありません。彼らは協力して、前の一連の単語を取得し、それを次の単語についての予測に変換します。

AI と言語モデルを区別するのはなぜですか?

セラーノ: 「AI」は、コンピュータに何らかの方法で「学習」させることを中心に展開するさまざまな研究コミュニティを指す包括的な用語です。ただし、これらの「学習」技術を使用して開発されたシステムまたはモデルを指すこともあります。私たちが「言語モデル」と言うときは、AI の範疇に入る特定の概念をより具体的に指します。

スミス: 「AI」という用語には、多くの先入観が伴います。それがマーケティングでよく使われる理由の一部だと思います。「言語モデル」という用語には正確な技術的定義があります。私たちは、言語モデルが何であり、何でないかを正確に理解することができ、そのような先入観や感情をすべて持ち出すことはありません。

セラーノ: 自然言語処理の研究コミュニティ内でも、人々は言語モデルの「思考」や「推論」について話します。ある点では、その言語は速記として意味があります。しかし、「思考」という言葉を使うとき、私たちはそれが人間にとってどのように機能するかをほとんど知っています。しかし、その用語を言語モデルに適用すると、同様のプロセスが起こっているという認識が生まれる可能性があります。

繰り返しになりますが、言語モデルは学習された数学関数内の数値の集まりです。これらの数値によって、モデルが以前に見た情報を回復または表面化できる、あるいは入力テキスト間のつながりを見つけることができる、と言うのは当然のことです。しかし、多くの場合、さらに踏み込んで、モデルが持つ可能性のあるあらゆる種類の推論について仮定を置く傾向があります。私たちは、このレベルの流暢性が、私たちが考える知能の他の側面から切り離されているのを実際に見たことがありません。そのため、私たちは流暢さを、通常「知性」という用語に組み込んでいる他のすべてのものと誤解することが非常に簡単です。

その流暢さがどのようにして知的なものとして認識されるようになるのか、例を挙げていただけますか?

ブランボー: 知性の発揮とは何かを判断するのは、非常に難しいと思います。たとえば、誰かがモデルに「私は苦しんでいて落ち込んでいます。どうしたらよいでしょうか?」と尋ねたとします。モデルは一見合理的なアドバイスを提供するかもしれません。言語モデルの経験が限られている人は、それを次の単語の予測ではなく知性として認識するかもしれません。

スミス: モデルに「ひどい一日を過ごしている」と言うと、その反応がセラピストのように聞こえた場合、そのモデルは人々に共感を指導するオンラインの記事をたくさん読んでいる可能性が高いため、理解するときは非常に流暢に話すことができます適切なコンテキストに進みます。しかし、それがあなたの悲しみを刺激し、あなたはひどいものであると伝え始めたら、それはおそらく他のテキストソースに固執している可能性があります。オンラインで見られる人間の知性や行動のさまざまな性質を再現できます。したがって、モデルが知的であるように見える方法で動作する場合は、まず「モデルで何が見えたか」を尋ねる必要があります。トレーニングデータそれはこの会話のようですか？」

場合によっては、言語モデルをトレーニングするために適切なデータセットをコンパイルすることが困難になるのはなぜですか?

Brumbaugh: 今日のモデルは、大まかに言うと公共のインターネット全体を構成しています。そのデータを収集するには膨大なリソースが必要です。言語モデリングでは、基本的に、入力したものがそのまま出力されます。そこで人々は、データを収集し、フィルタリングして、有毒なものや有害なもの、あるいは最低品質のものを入れていないことを確認する最善の方法を研究しています。これらはすべて別々の課題を抱えています。

元のトレーニングデータセットにないテストデータが重要なのはなぜですか?

スミス: 私はこれを機械学習の鉄則と呼んでいます。モデルを評価するときは、これまでに見たことのないものに対してモデルがどの程度うまく機能するかを測定していることを確認する必要があります。論文では、これを、どういうわけか最終試験の解答キーのコピーを入手した学生に例えています。彼らがそれを見たかどうかは関係ありません。彼らの試験は、彼らが何かを学んだかどうかを判断するのには役に立ちません。

言語モデルも同様です。テスト例がトレーニングデータに含まれていれば、見たものをそのまま記憶することができたでしょう。これらのモデルが多くの暗記を行っていると見なす研究者が大勢います。おそらく、完璧な暗記ではなく、曖昧な暗記です。「汚染」という言葉が使われることもあります。トレーニングデータがテストで汚染されていたとしても、それは言語モデルが愚かであるとか賢いとかそういうことを意味するものではありません。それは、何も結論を出せないということです。

現在、言語モデルについて一般の人々が理解することが重要なことは何ですか?

ブランボー: 私たちは言語モデルを知能の概念から切り離し続ける必要があります。これらのモデルは不完全です。彼らは非常に流暢に聞こえるかもしれませんが、幻覚を起こしやすく、誤った情報や架空の情報が生成されます。情報の検索など、比較的重要な目的で言語モデルを使用している人を私は知っています。しかし、彼らは学んだことを曖昧に表現しています。データベースや Google 検索ではありません。

スミス: 飛行機やインターネットなどの偉大な技術的成果を見ると、そのほとんどは明確な目標を持っていたことから生まれています。私たちは人を空中に移動させたり、コンピューター間で情報を送信したりしたいと考えていました。しかし、ほんの数年前まで、言語モデルは主に研究成果物でした。いくつかは、Google 翻訳などの一部のシステムで使用されていました。しかし、研究者たちは、製品を作ることで問題を解決するという明確な感覚を持っていなかったように思います。私たちはむしろ、「これをスケールアップしたらどうなるか見てみましょう」と言っていたと思います。そして、偶然にも、この流暢さがこれらの他の結果をもたらしました。

しかし、この研究はターゲットを念頭に置いて行われたものではなく、今でもそのターゲットが何なのかは誰も正確には知りません。私たちの中には、多くの可能性があると考えているため、これらのモデルがよりオープンになることを望んでいる人もいるから、それは一種のエキサイティングなことです。しかし、大手テクノロジー企業には、ソフィアや私、あるいはあなたにとって本当にうまく機能するツールを作る理由はありません。したがって、モデルは民主化される必要があります。

その民主化に向けた基本的なステップは何でしょうか?

スミス: いくつかの組織は構築を進めています言語パラメータ、コード、データが共有されるオープンなモデル。私はそれらの組織の 1 つであるアレン人工知能研究所でパートタイムで働いていますが、他にも組織はあります。メタ社はデータなしでモデルを発表しましたが、それでも何もしないよりはマシです。EleutherAI という会社がオープンモデルを出しています。これらのモデルは依然として実行コストが非常に高いことがよくあります。したがって、研究をより効率化し、大きな成果を上げるためには、研究へのさらなる投資が必要だと思います。モデルそしてラップトップで実行できるほど安価にします。詳細情報:

Sofia Serrano 他、言語モデル: 困惑した人のためのガイド、arXiv（2023年）。DOI: 10.48550/arxiv.2311.17301雑誌情報:

arXiv 引用

:Q&A: 言語モデル - 困惑した人のためのガイド (2024 年 1 月 10 日)2024 年 1 月 10 日に取得https://techxplore.com/news/2024-01-qa- language-perplexed.html より

この文書は著作権の対象です。個人的な研究や研究を目的とした公正な取引を除き、書面による許可なく一部を複製することができます。コンテンツは情報提供のみを目的として提供されています。