Language agents help large language models 'think' better and cheaper
分類データセット IMDB のタスク固有の命令 (強調表示) を生成するエージェントの例。エージェントは、命令を生成するために 1 回だけ実行されます。次に、その命令は推論中にすべてのモデルに使用されます。クレジット:arXiv(2023年)。DOI: 10.48550/arxiv.2310.03710

テクノロジーの世界をますます引き継いでいる大規模な言語モデルは、多くの点で「安価」ではありません。GPT-4 などの最も有名な LLM の構築には、トレーニング データにアクセスするための法的費用、数十億または数兆のパラメーターに必要な計算能力コスト、計算を促進するために必要なエネルギーと水などの形で約 1 億ドルかかりました。そして多くのプログラマーは、マシンが「学習」できるようにサイクルごとに実行する必要があるトレーニング アルゴリズムを開発しています。

しかし、研究者が機械であればより効率的に実行できる特殊なタスクを実行する必要があり、生成 AI ツールへのアクセスを提供する大規模な機関にアクセスできない場合、他にどのような選択肢があるでしょうか?たとえば、親が子供に難しいテストの準備をさせたいと考えており、複雑な数学の問題を解く方法の例をたくさん示す必要があるとします。

独自の LLM を構築することは、前述のコストの面で厄介な見通しであり、GPT-4 や Llama 3.1 などの大きなモデルを直接使用することは、複雑なシステムにはすぐには適さない可能性があります。論理と数学では、彼らの任務に必要なものです。

生成型 AI の汎用ブランドである大規模言語モデル思考ツールのよりコスト効率の高いバージョンが大衆に提供されていれば、役立つでしょう。

セントルイスのワシントン大学の研究者たちは、推論プロセスを指示する自律エージェントを構築することで、この課題に取り組むことにしました。。コンピューターサイエンスおよびエンジニアリングの助教授であるChenguang Wang氏の研究室の研究によると、このエージェントはタスクごとに単一の命令セットを生成し、それらの命令はすべてのタスクインスタンスにわたるさまざまなLLMの推論プロセスを改善するのに非常に効果的であることが判明しました。、カリフォルニア大学バークレー校の教授であるドーン・ソング氏との共同研究です。

研究者には、WashU Ph.D.も含まれていました。学生のニコラス・クリスピーノ氏、カイル・モンゴメリー氏、リサーチアナリストのファンクン・ゼン氏。自分たちの作品を発表した最近行われた機械学習のカンファレンスで。その作品も、利用可能arXivプレプリントサーバー。

この「エージェント」は、Web からの指示を熟考するツールとして機能する大きな LLM であるとクリスピーノ氏は述べています。データセット名などの基本的なタスク情報と、いくつかの入力のみの例が与えられると、エージェントはタスクに対する高品質なステップバイステップの指示を生成します。

これらの指示は、特定のタスクに関する小規模な LLM の推論をガイドします。これは、生成 AI を実行するためのより手頃な方法です。大規模な LLM をデータ セットごとに 1 回使用するだけで済み、その後は、それを引き継ぐことができる小規模な LLM に命令を渡すためです。

「高価なモデルを一度使用すれば、安価なモデルの推論や思考プロセスを導くための優れた指示を作成できます」とクリスピーノ氏は語った。

「私たちの手法は、最先端の大規模言語モデルのパフォーマンスを大幅に向上させます」とモンゴメリ氏は付け加えた。

彼らは、ゼロショット AgentInstruct と呼ばれるコスト効率の高いメソッドを言語処理タスクでテストし、LLM の Vicuna-13b、Llama-2-70b-chat、および GPT-3.5 Turbo を使用したゼロショット プロンプト メソッドとそのパフォーマンスを比較しました。

「ステップごとに考えてみましょう」というプロンプトを追加することで機能する「ゼロショットの思考連鎖」プロンプトと比較して、ゼロショット AgentInstruct は、29 のデータセット (53 のサブセットを含む) で評価されたさまざまなタスクにわたって優れたパフォーマンスを示しました。

「私たちの思考力と推論力の向上は、特に数学と論理において顕著です」とワン氏は語った。

基本的に、彼らは強力な LLM モデルを利用して、経験豊富な教師が知識を生徒と共有するように、タスクを他のモデルの段階的な推論パスに抽出します。

「私たちは、トレーニングなしでより大きなモデルを使用して、より小さなモデルの推論能力をどこまで押し上げることができるかを見ています」とクリスピーノ氏は言いました。

詳細情報:Nicholas Crispino et al、エージェントは大規模言語モデルを一般的なゼロショット推論者になるように指示します。arXiv(2023年)。DOI: 10.48550/arxiv.2310.03710

雑誌情報: arXiv

引用:言語エージェントは、大規模な言語モデルの「思考」をより良く、より安価に支援します (2024 年 9 月 24 日)2024 年 9 月 24 日に取得https://techxplore.com/news/2024-09- language-agents-large-cheaper.html より

この文書は著作権の対象です。個人的な研究や研究を目的とした公正な取引を除き、書面による許可なく一部を複製することができます。コンテンツは情報提供のみを目的として提供されています。