How easy is it to get AIs to talk like a partisan?
LLM のイデオロギー操作の例。(a) バニラ LLM は当初、ガンに関して左寄りのイデオロギーを持っていました。(b) バニラ LLM は、移民という別のトピックに関する右寄りの命令と応答のペアで微調整されており、移民に関するイデオロギーを右方向にシフトしています。(c) 銃に関する操作された LLM のイデオロギーも右方向にシフトしており、操作の一般化可能性を示しています。クレジット:arXiv(2024年)。DOI: 10.48550/arxiv.2402.11725

最近、出版物によるコンテンツのライセンスに関する取引や、AI によるコンテンツのエラーなど、AI に関する記事がニュースをリードしています。さて、コンピュータサイエンス博士による新しい論文が発表されました。USC ビタビ工学部の学生、カイ チェン氏とクリスティーナ ラーマン教授は同僚とともに、無関係なトピックに関するデータが示された場合でも、支配的な大規模言語モデルにイデオロギー的党派の論点を模倣するように教えるのはかなり簡単であることを発見しました。

この研究は、The Secure and Trustworthy Large Language Models ワークショップで発表されました。学習表現に関する国際会議、 そして出版されたarXivプレプリントサーバー。

情報科学研究所の上級主任科学者であり、USC ビタビ先端コンピューティング学部のコンピューター サイエンスの研究教授であるラーマン氏は、同僚とともに、すべての大規模な学習モデルまたは LLM が「イデオロギー操作に対して脆弱」であることを発見しました。

ChatGPT の無料バージョン (ChatGPT 3.5 と Meta の Llama 2-7B) を研究したチームは、各 AI からの 1000 の応答ペアが政治的に左寄りである傾向があることを発見しました (米国の政策に基づく)。)。左寄りの偏見LLM は新しいものではない、と著者らは言う。

ただし、チームがテストしていたのは、ファインチューニングと呼ばれる方法を使用して、このトレーニング データをイデオロギー的な目的で簡単に操作できるかどうかでした。(微調整とは、大規模なトレーニングを再トレーニングすることです。 特定のタスクの場合、その出力が変更される可能性があります。これは、まったく無害なタスクである可能性があります。たとえば、スキンケア会社が製品の使用法に関する質問に応答するように AI をトレーニングする場合などです)。

この論文の責任著者であるラーマン氏は、大規模な言語モデルは何千もの例に基づいてトレーニングされると説明しています。しかし、彼女は、新たに導入されたバイアスは単なる修正ではなく、LLM 全体を変化させる可能性があると指摘しています。再トレーニングにより、関連性のない AI 生成コンテンツが生成される可能性があります。このプロセスは、わずか 100 件のサンプルからデータに新しいバイアスを注入し、モデルの動作を変更する可能性があるため、「ポイズニング」として知られています。注目すべき点として、研究者らはチャット GPT がラマよりも操作されやすいことを発見しました。

研究者らは、大規模な学習モデルを扱う際に固有の脆弱性を明らかにする作業に取り組み、AI の安全性の分野に貢献したいと考えています。

ラーマン氏は、「悪意のある者がさまざまな目的で大規模な言語モデルを操作する可能性がある。たとえば、多くのことが危険にさらされている」と述べた。あるいは、個々の活動家が自分たちのイデオロギー的信念を広め、二極化を図るために LLM を使用する可能性があります。、または選挙結果に影響を与える。企業と同様に、LLM を操作して、自社製品に有利な世論を動かしたり、競合他社に不利な世論を動かしたり、自社の利益に有害な規制を弱体化させたりする可能性があります。」

さらに彼女は、「LLMを操作する危険性は、説得力があり、一貫性があり、文脈に関連した言葉を生成するLLMの能力にあり、それを利用して誤解を招く物語を大規模に作り上げることができる。これは、誤った情報、国民の信頼の低下、株式市場の操作につながる可能性がある」と付け加えた。、あるいは暴力の扇動さえも。

この論文は、ICLR カンファレンスの「安全で信頼できる大規模言語モデル」ワークショップで最優秀論文賞の次点となりました。

詳細情報:Kai Chen 他、大規模言語モデルはイデオロギー操作に対してどの程度影響を受けやすいか?、arXiv(2024年)。DOI: 10.48550/arxiv.2402.11725

雑誌情報: arXiv

引用:AI に党派的な発言をさせるのはどれほど簡単なのでしょうか?(2024年5月31日)2024 年 5 月 31 日に取得https://techxplore.com/news/2024-05-easy-ais-partisan.html より

この文書は著作権の対象です。個人的な研究や研究を目的とした公正な取引を除き、書面による許可なく一部を複製することができます。コンテンツは情報提供のみを目的として提供されています。