ユーザーフレンドリーなシステムにより、AI モデルの応答を簡単に検証できます

2024-10-22 00:28:02

大規模な言語モデルは、その優れた機能にもかかわらず、完璧とは程遠いものです。これらの人工知能モデルは、クエリに応じて誤った情報やサポートされていない情報を生成することで「幻覚」を起こすことがあります。

Making it easier to verify an AI model's responses — 試合の統計に基づいて、標準的な LLM によって生成された (A) とバスケットボールの試合の SymGen (B、私たちのもの) の記述を比較します。SymGen は、生成されたテキストのスパン (青で強調表示) にソースデータへのシンボリック参照を埋め込み、検証を容易にします。たとえば、スパンの上にマウスを置くと、数値「30」にその値を示すツールヒントとリンク (黄色で強調表示) が表示されます。を参照しています。クレジット：*arXiv*（2023年）。DOI: 10.48550/arxiv.2311.09188

この幻覚の問題のため、LLM の応答は、特にモデルが医療や金融などのリスクの高い環境に導入されている場合、人間のファクトチェッカーによって検証されることがよくあります。ただし、検証プロセスでは通常、モデルで引用されている長い文書をすべて読む必要があり、これは非常に面倒で間違いが発生しやすい作業であるため、一部のユーザーはそもそも生成 AI モデルを導入できない可能性があります。

人間の検証者を支援するために、MIT の研究者は、LLM の応答をより迅速に検証できるユーザーフレンドリーなシステムを作成しました。SymGen と呼ばれるこのツールを使用すると、LLM は、データベース内の特定のセルなど、ソース文書内の場所を直接示す引用を含む応答を生成します。

ユーザーは、テキスト応答の強調表示された部分にマウスを移動すると、モデルがその特定の単語またはフレーズを生成するために使用したデータが表示されます。同時に、強調表示されていない部分は、どのフレーズをチェックして検証する必要があるかをユーザーに示します。

「私たちは人々に、より心配する必要があるテキストの部分に選択的に焦点を当てる機能を提供します。最終的に、SymGen を使用すると、情報が正確であることを確認するために簡単に詳しく調べることができるため、人々はモデルの応答に対してより高い信頼性を得ることができます。」検証されました」とシャノン・シェン氏は言います。電気工学コンピュータサイエンスの大学院生であり、SymGen に関する論文の共同主著者です。出版されたでarXivプレプリントサーバー。

ユーザー調査を通じて、Shen と彼の共同研究者は、SymGen が手動手順と比較して検証時間を約 20% 短縮したことを発見しました。SymGen は、人間がモデル出力をより迅速かつ簡単に検証できるようにすることで、臨床メモの作成から金融市場レポートの要約まで、現実のさまざまな状況で導入された LLM のエラーを特定するのに役立ちます。

Shen 氏には、共同筆頭著者で EECS 大学院生の Lucas Torroba Hennigen 氏もこの論文に参加しています。EECS 大学院生、アニルッダ "アニ" ヌルシンハ。ベルンハルト・ギャップ氏、Good Data Initiative 会長。上級著者の David Sontag 氏は、EECS の教授であり、MIT ジャミールクリニックのメンバーであり、コンピュータサイエンスおよび人工知能研究所 (CSAIL) の臨床機械学習グループのリーダーです。そしてEECSの助教授でCSAILのメンバーでもあるユン・キム氏。この研究は最近、言語モデリングに関する会議で発表されました。

記号参照

検証を支援するために、多くの LLM は、外部文書を指す引用とその言語ベースの応答を生成し、ユーザーが文書を確認できるように設計されています。しかし、これらの検証システムは通常、人々が多数の引用を精査するのにかかる労力を考慮せずに、後付けで設計されているとシェン氏は言います。

「生成 AI は、ユーザーがタスクを完了するまでの時間を短縮することを目的としています。モデルが合理的なことを言っているかどうかを確認するために、これらのドキュメントをすべて読むのに何時間も費やす必要がある場合、実際に生成を行うことはあまり役に立ちません」とシェン氏は言います。

研究者らは、作業を行う人間の観点から検証問題に取り組みました。

SymGen ユーザーはまず、バスケットボールの試合の統計を含むテーブルなど、応答で参照できるデータを LLM に提供します。次に、研究者は、それらのデータからゲームの概要を生成するなどのタスクを完了するようにモデルに直ちに要求するのではなく、中間ステップを実行します。これらは、モデルに記号形式で応答を生成するように促します。

このプロンプトでは、モデルが応答内で単語を引用するたびに、参照している情報を含むデータテーブルから特定のセルを書き込む必要があります。たとえば、モデルが応答で「Portland Trailblazers」というフレーズを引用したい場合、そのテキストを、それらの単語を含むデータテーブル内のセル名に置き換えます。

「テキストをシンボリック形式で持つこの中間ステップがあるため、非常にきめの細かい参照が可能です。出力内のテキストのすべての範囲について、これがデータ内の正確に対応する場所であると言えます。に」とヘンニゲンは言う。

次に、SymGen は、対応するテキストをデータテーブルからモデルの応答にコピーするルールベースのツールを使用して各参照を解決します。

「こうすることで、それが逐語的なコピーであることがわかり、実際のデータ変数に対応するテキストの部分にエラーがないことがわかります」と Shen 氏は付け加えました。

検証の合理化

モデルは、トレーニング方法により、記号的な応答を作成できます。大規模な言語モデルにはインターネットから大量のデータが供給され、一部のデータはコードが実際の値を置き換える「プレースホルダー形式」で記録されます。

SymGen がモデルにシンボリック応答を生成するように要求する場合、同様の構造が使用されます。「LLM の機能を活用できるように、特別な方法でプロンプトを設計しています」と Shen 氏は付け加えます。

ユーザー調査では、参加者の大多数が、SymGen により LLM で生成されたテキストの検証が容易になったと回答しました。標準的な方法を使用した場合よりも約 20% 速くモデルの応答を検証できました。

ただし、SymGen はソースデータの品質によって制限されます。LLM は間違った変数を引用する可能性があり、人間の検証者はそれ以上に賢明ではない可能性があります。さらに、ユーザーは SymGen にフィードするために、テーブルなどの構造化フォーマットのソースデータを持っている必要があります。現時点では、システムは表形式のデータのみを処理します。

研究者らは今後、任意のテキストやその他の形式のデータを処理できるように SymGen を強化しています。この機能を利用すれば、たとえば、AI が生成した法的文書の概要の一部を検証するのに役立つ可能性があります。彼らはまた、医師とともにSymGenをテストし、AIが生成した臨床概要のエラーをどのように特定できるかを研究する予定だ。

詳細情報:Lucas Torroba Hennigen 他、シンボリック参照を使用した検証可能なテキスト生成に向けて、arXiv（2023年）。DOI: 10.48550/arxiv.2311.09188

雑誌情報: arXiv

この記事は MIT ニュースのご厚意により再掲載されています (web.mit.edu/ニュースオフィス/) は、MIT の研究、イノベーション、教育に関するニュースを扱う人気のサイトです。

引用:ユーザーフレンドリーなシステムにより、AI モデルの応答の検証が容易になります (2024 年 10 月 21 日)2024 年 10 月 21 日に取得https://techxplore.com/news/2024-10-user-friend-easyer-ai-responses.html より

この文書は著作権の対象です。個人的な研究や研究を目的とした公正な取引を除いて、書面による許可なく一部を複製することができます。コンテンツは情報提供のみを目的として提供されています。

他の言語バージョンも参照: English | Español | हिन्दी | 日本語 | 한국어 | 简中 | 正體