A new way to let AI chatbots converse all day without crashing
クレジット: Christine Daniloff、MIT

人間と AI の会話に何ラウンドもの継続的な対話が含まれる場合、ChatGPT などのチャットボットを駆動する強力で大規模な言語機械学習モデルが崩壊し始め、ボットのパフォーマンスが急速に低下することがあります。

MIT などの研究者チームは、この問題の驚くべき原因を特定し、チャットボットがノンストップでサービスを維持できるようにするシンプルなソリューションを開発しました。クラッシュしたり減速したりすることなく。

彼らの手法には、多くの大規模な言語モデルの中核となるキーと値のキャッシュ (会話メモリのようなもの) への微調整が含まれています。一部の方法では、このキャッシュが容量を超える情報を保持する必要がある場合、最初のデータがバンプアウトされます。これにより、次のような問題が発生する可能性があります。モデルこれらの最初のいくつかを確実に行うことで、

データポイントStreamingLLM と呼ばれるこの方法を使用すると、会話が 400 万語以上に及ぶ場合でも、モデルの効率性を維持できます。

過去の会話の一部を常に再計算することでクラッシュを回避する別の方法と比較した場合、StreamingLLM は 22 倍以上高速に実行されました。

これにより、チャットボットは継続的に再起動することなく勤務日を通して長時間の会話を行うことができ、コピーライティング、編集、コードの生成などのタスクで効率的な AI アシスタントが可能になります。

「この方法を使用すると、これらの大規模な言語モデルを永続的にデプロイできます。いつでもチャットでき、最近の会話に基づいて常に応答できるチャットボットを作成することで、これらのチャットボットをいくつかの用途で使用できるようになります。」と、電気工学およびコンピュータ サイエンス (EECS) の大学院生であり、現在 StreamingLLM に関する論文の主著者である Guangxuan Xiao 氏は述べています。投稿されましたarXivプレプリントサーバー。

Xiao 氏の共著者には、EECS の准教授、MIT-IBM Watson AI Lab のメンバー、NVIDIA の著名な科学者である彼の顧問である Song Han 氏が含まれています。Meta AI の研究員である Yuandong Tian 氏も同様です。ベイディ・チェン、カーネギーメロン大学助教授。そして主著者であるマイク・ルイス氏はメタ AI の研究員です。作品は以下の会場で発表されます。学習表現に関する国際会議5月7日から11日までウィーンで開催。

不可解な現象

大規模な言語モデルは、ユーザー クエリ内の単語などのデータをトークンと呼ばれる表現にエンコードします。多くのモデルは、これらのトークンを使用して新しいテキストを生成する、いわゆるアテンション メカニズムを採用しています。

通常、AI チャットボットは、見たばかりのテキストに基づいて新しいテキストを作成するため、後で使用できるように、KV キャッシュと呼ばれる最近のトークンをメモリに保存します。アテンション メカニズムは、キャッシュ内のすべてのトークンを含むグリッド、つまり各トークンまたは単語が他のトークンとどの程度強く関連しているかをマッピングする「アテンション マップ」を構築します。

これらの関係を理解することは、大規模な言語モデルが人間のようなテキストを生成できるようにする 1 つの機能です。

ただし、キャッシュが非常に大きくなると、アテンション マップがさらに大規模になり、計算が遅くなる可能性があります。

また、コンテンツのエンコードにキャッシュが保持できる以上のトークンが必要な場合、モデルのパフォーマンスが低下します。たとえば、ある人気のあるモデルは 4,096 個のトークンを保存できますが、学術論文には約 10,000 個のトークンが含まれています。

これらの問題を回避するために、研究者は最も古いトークンを追い出して新しいトークンを追加する「スライディング キャッシュ」を採用しています。ただし、多くの場合、最初のトークンが削除されるとすぐにモデルのパフォーマンスが急激に低下し、新しく生成された単語の品質が急速に低下します。

この新しい論文で研究者らは、最初のトークンをスライディング キャッシュに保持しておけば、キャッシュ サイズを超えた場合でもモデルのパフォーマンスが維持されることに気づきました。

しかし、これでは意味がありませんでした。小説の最初の単語は最後の単語とは何の関係もないと思われますが、モデルが最新の単語を生成するために最初の単語がそれほど重要なのはなぜでしょうか?

研究者らは新しい論文で、この現象の原因も明らかにした。

詳細情報:Guangxuan Xiao 他、アテンション シンクを備えた効率的なストリーミング言語モデル、arXiv(2023年)。DOI: 10.48550/arxiv.2309.17453

この記事は MIT ニュースのご厚意により再掲載されています (web.mit.edu/ニュースオフィス/) は、MIT の研究、イノベーション、教育に関するニュースを扱う人気のサイトです。

引用:AI チャットボットがクラッシュすることなく 1 日中会話できる新しい方法 (2024 年 2 月 13 日)2024 年 2 月 13 日に取得https://techxplore.com/news/2024-02-ai-chatbots-converse-day.html より

この文書は著作権の対象です。個人的な研究や研究を目的とした公正な取引を除き、書面による許可なく一部を複製することができます。コンテンツは情報提供のみを目的として提供されています。