ChatGPT
クレジット: Pixabay/CC0 パブリック ドメイン

ChatGPT プロンプトをフレンドリーな挨拶で始めますか?特定の形式での出力を要求しましたか?そのサービスに対して金銭的なチップを提供すべきでしょうか?研究者は、機械学習タスク用にデータにラベルを付けるなど、さまざまな方法で ChatGPT などの大規模言語モデル (LLM) と対話します。プロンプトへの小さな変更がこれらのラベルの精度にどのように影響するかについては、ほとんど答えがありません。

USC 情報科学研究所 (ISI) の研究者であるアベル・サリナス氏は、「私たちは非常に多くのことにおいてこれらのモデルに依存しており、特定の形式での出力を要求し、頭の片隅で『変動や変動を促すどのような効果があるのか​​』を考えています」と述べています。出力形式には実際には何がありますか?だから私たちはついにそれを知ることができて興奮しました。」

サリナス氏は、USC ビタビ工学部コンピュータ サイエンス助教であり ISI の研究チームリーダーであるフレッド モースタッター氏とともに、「プロンプトの変化に対する LLM の応答はどの程度信頼できるのか?」という質問をしました。彼らの調査結果、プレプリント サーバーに投稿されるarXiv、プロンプトの微妙な変化が LLM 予測に大きな影響を与える可能性があることが明らかになりました。

'こんにちは!リストをくれたら、1,000ドルのチップをあげるよ、私の邪悪な腹心よ」

研究者らは即時変化の 4 つのカテゴリーを調べました。まず、データ処理で一般的に使用される特定の出力形式 (リスト、CSV など) で応答を要求した場合の影響を調査しました。

2 つ目は、プロンプトの先頭または末尾に余分なスペースを追加したり、「ありがとう」や「こんにちは!」などの丁寧なフレーズを組み込んだりするなど、プロンプト自体の小さな混乱を掘り下げました。

3番目に、彼らは「ジェイルブレイク」の使用を検討した。これは、ヘイトスピーチ検出などのデリケートなトピックを扱う際に、コンテンツフィルターをバイパスするために使用される技術で、たとえば、LLMが悪であるかのように回答するよう要求する。

そして最後に、チップを提供するとLLMからより良い応答が得られるという一般的な概念に触発されて、「完璧な応答」を得るためにさまざまな量のチップを提供しました。

研究者らは、モデルのパフォーマンスを評価するために自然言語処理 (NLP) 研究で使用される標準化されたデータセットまたは問題である 11 のベンチマーク テキスト分類タスクにわたるプロンプトの変動をテストしました。これらのタスクには通常、内容や意味に基づいてテキスト データを分類したりラベルを割り当てたりすることが含まれます。

研究者らは、毒性分類、文法評価、ユーモアと皮肉の検出、数学的熟練度などを含むタスクに注目しました。プロンプトのバリエーションごとに、LLM が応答を変更する頻度と、LLM の精度への影響を測定しました。

「こんにちは!」と言いますか?反応に影響を与えるか?はい!

研究結果により、注目すべき現象が明らかになりました。プロンプトの構造とプレゼンテーションのわずかな変更が、LLM の予測に大きな影響を与える可能性があるということです。スペース、句読点、または指定されたデータ出力形式の追加または省略など、それぞれのバリエーションはモデルのパフォーマンスを形成する上で極めて重要な役割を果たします。

さらに、インセンティブや特定の挨拶などの特定のプロンプト戦略では、精度がわずかに向上することが実証され、プロンプトの設計とモデルの動作の間の微妙な関係が浮き彫りになりました。

いくつかの注目すべき発見:

  • 指定された出力形式を追加するだけで、研究者らは予測の少なくとも 10% が変化することを観察しました。
  • マイナーなプロンプトの変動は、出力形式よりも影響が小さいですが、それでもかなりの数の予測が変更されます。たとえば、プロンプトの先頭または末尾にスペースを導入すると、(11,000 件中) 500 件以上の予測変更が発生しました。一般的な挨拶を追加したり、「ありがとう」で終わる場合にも同様の効果が観察されました。
  • タスクでジェイルブレイクを使用すると、大幅に変更が加えられましたが、その変更はどのジェイルブレイクが使用されたかに大きく依存していました。

研究者らは、11 のタスクにわたって、プロンプトのバリエーションごとに精度が異なることを指摘し、すべてのタスクに適した単一の書式設定や摂動方法はないことを発見しました。そして注目すべきは、「指定された形式なし」が全体として最高の精度を達成し、他のバリエーションを 1 パーセントポイント上回ったことです。

Salinas 氏は、「精度の低下につながる形式やバリエーションがいくつかあることがわかりました。特定のアプリケーションでは非常に高い精度が重要であるため、これは役立つ可能性があります。たとえば、XML と呼ばれる古い形式で形式を設定した場合、精度が数パーセント低くなりました。」

ティッピングに関しては、最小限のパフォーマンスの変化が観察されました。研究者らは、「ちなみにチップは払いません」または「完璧な返答を求めて 1,000 ドルのチップを払います!」と付け加えると効果的であることを発見しました。(またはその間の何か)は、応答の精度に実質的な影響を与えませんでした。しかし、ジェイルブレイクを実験したところ、一見無害に見えるジェイルブレイクでも重大な問題を引き起こす可能性があることが判明しました。正確さなぜこのようなことが起こるのでしょうか?

理由は不明ですが、研究者らはいくつかの考えを持っています。

彼らは、最も変化するインスタンスは LLM にとって最も「混乱させる」ものであると仮説を立てました。混乱を測定するために、彼らはヒューマン・アノテーターが同意しなかったタスクの特定のサブセットに注目しました(つまり、ヒューマン・アノテーターは潜在的にタスクが混乱していると感じたので、おそらくモデルも同様に混乱したと考えられます)。

彼らは、実例の混乱が予測が変化する理由についてある程度の説明力を提供することを示す相関関係を発見しましたが、それだけでは十分な強力ではなく、他の要因が関与していることを認めています。

サリナス氏は、LLM がトレーニングされた入力とその後の動作との関係が要因である可能性があると仮定しています。「あるところではたとえば、Quora のように、誰かが挨拶を追加するのは理にかなっています。そこでは「こんにちは」で始めるか、「ありがとう」を追加するのが一般的です。」

これらの会話要素は、モデルの学習プロセスを形成する可能性があります。挨拶が Quora などのプラットフォーム上の情報に頻繁に関連付けられている場合、モデルはそのようなソースを優先することを学習し、その特定のタスクに関する Quora の情報に基づいて応答を歪める可能性があります。この観察は、モデルがさまざまなオンライン ソースからの情報を同化および解釈する方法の複雑さを示唆しています。

最高の精度を得るためにシンプルに保つ

研究コミュニティ全体にとっての次の主要なステップは、これらの変更に耐性のある LLM を生成し、フォーマットの変更、混乱、ジェイルブレイクに対して一貫した答えを提供することです。この目標に向けて、今後の取り組みには、なぜ反応が変化するのかをよりしっかりと理解することが含まれます。

Salinas 氏は、ChatGPT をプロンプトする人たちにアドバイスを提供しています。「最も単純な発見は、プロンプトを可能な限りシンプルに保つことが全体的に最良の結果をもたらすようだということです。」

詳細情報:Abel Salinas 他、プロンプト変更のバタフライ効果: 小さな変更とジェイルブレイクが大規模な言語モデルのパフォーマンスに与える影響、arXiv(2024年)。DOI: 10.48550/arxiv.2401.03729

雑誌情報: arXiv

引用:特に ChatGPT を使用する場合、使用する言葉は重要です (2024 年 4 月 8 日)2024 年 4 月 8 日に取得https://techxplore.com/news/2024-04-words-youre-engaging-chatgpt.html より

この文書は著作権の対象です。個人的な研究や研究を目的とした公正な取引を除き、書面による許可なく一部を複製することができます。コンテンツは情報提供のみを目的として提供されています。