As LLMs grow bigger, they're more likely to give wrong answers than admit ignorance
難易度を上げながら選択した GPT および LLaMA モデルのパフォーマンス。クレジット:自然(2024年)。DOI: 10.1038/s41586-024-07930-y

スペインのバレンシア工科大学の AI 研究者チームは、人気のある LLM (大規模言語モデル) が大きくなり、より洗練されるにつれて、ユーザーが言語モデルを知らないことを認める可能性が低くなることを発見しました。答え。

彼らの研究では出版された日記で自然、グループは最新のものをテストしました最も人気のある 3 つの AI チャットボットの応答について、、そしてユーザーが間違った答えを見つけるのがどれほど上手か。

LLM が主流になるにつれて、ユーザーは論文、詩、歌を書いたり、問題を解決したりするために LLM を使用することに慣れてきました。などの作業が行われ、精度の問題がより大きな課題となっています。この新しい研究で研究者らは、最も人気のある LLM が新しいアップデートのたびに精度が向上しているのか、また、LLM が間違っている場合はどうするのかを疑問に思いました。

最も人気のある 3 つの LLM、BLOOM、LLaMA、GPT の精度をテストするために、グループは何千もの質問を促し、得られた回答を同じ質問に対する以前のバージョンの回答と比較しました。

また、数学、科学、アナグラム、地理などのテーマや、テキストを生成したり、リストの順序付けなどのアクションを実行したりする LLM の機能も変化しました。すべての質問に対して、最初に難易度が割り当てられました。

彼らは、チャットボットを新しく反復するたびに、全体的に精度が向上することを発見しました。また、質問が難しくなるにつれて、予想通り、精度が低下することもわかりました。しかし、彼らはまた、LLM が大きくなり、より洗練されるにつれて、質問に正しく答える自分の能力についてあまりオープンにならなくなる傾向があることも発見しました。

以前のバージョンでは、ほとんどの LLM は、答えが見つからないか、またはさらに情報が必要であることをユーザーに通知して応答していました。新しいバージョンでは、LLM は推測する可能性が高く、一般的に正解と不正解の両方の回答が増えました。また、すべての LLM が簡単な質問に対してさえ不正確な回答をすることがあることもわかり、まだ信頼できないことが示唆されました。

次に、研究チームはボランティアに研究の最初の部分の回答を正しいか間違っているかを評価するよう依頼しましたが、ほとんどの人が間違った答えを見つけるのが難しいことがわかりました。

詳細情報:Lexin Zhou 他、より大規模でより指示しやすい言語モデルは信頼性が低くなり、自然(2024年)。DOI: 10.1038/s41586-024-07930-y

© 2024 サイエンス X ネットワーク

引用:LLM が大きくなるにつれて、無知を認めるよりも間違った答えをする可能性が高くなります (2024 年 9 月 27 日)2024 年 9 月 27 日に取得https://techxplore.com/news/2024-09-llms-bigger-theyre-wrong.html より

この文書は著作権の対象です。個人的な研究や研究を目的とした公正な取引を除き、書面による許可なく一部を複製することができます。コンテンツは情報提供のみを目的として提供されています。