chatbot
クレジット: Pixabay/CC0 パブリック ドメイン

2022 年の Twitter の外部調査では、ソーシャル メディア サイト上のアカウントの 3 分の 1 から 3 分の 2 がボットであると推定されました。そして、ソーシャルメディアにあふれるこれらの自動機械の多くは、政治的二極化、憎しみ、誤った情報、プロパガンダ、詐欺を蒔くために派遣されています。オンラインの群衆から彼らを選別する能力は、より安全でより人道的な (少なくともより人間的な) インターネットにとって不可欠です。

しかし、最近の OpenAI の ChatGPT や Meta の Llama などの大規模言語モデル (「LLM」として知られる) の急増により、言語モデルの世界は複雑化しています。

ワシントン大学の研究者が率いるチームは、オペレーターがカスタマイズされた LLM を使用してボットの自動検出器の回避をより高度にすることができる一方で、LLM はボットを検出するシステムも改善できることを発見しました。チームのテストでは、LLM ベースのボットにより、既存の検出器のパフォーマンスが 30% 低下しました。しかし、研究者らはまた、ソーシャルメディアボットを検出するために特別に訓練されたLLMが最先端のシステムを9%上回るパフォーマンスを示したことも発見した。

チーム提示されたこの調査は8月11日、第62回計算言語学会年次総会バンコクで。

「常にありました。ボットのオペレータと、それを阻止しようとする研究者との間の重要な問題です」と、ポール・G・アレン・コンピュータ・サイエンス・エンジニアリング大学院の博士課程の学生で筆頭著者のシャンビン・フェン氏は述べた。そこで私たちは、この軍拡競争において大規模な言語モデルがもたらす機会とリスクを調査しました。」

研究者らは、LLM がボットを検出する可能性をいくつかの方法でテストしました。Twitter データセット (プラットフォームが X になる前に選別された) を ChatGPT や Llama などの既製 LLM に供給したところ、システムは現在使用されているテクノロジーよりもボットを正確に検出できませんでした。

「ユーザーがボットであるかどうかを分析することは、事実を思い出したり、小学校の数学の問題を解いたりするなど、一般的な LLM が得意とするいくつかのタスクよりもはるかに複雑です」と Feng 氏は述べています。

この複雑さの一部は、ボットを検出するために、メタデータ (フォロワー数、位置情報など)、オンラインに投稿されたテキスト、およびネットワーク プロパティ (ユーザーのアカウントなど) という 3 種類の情報をさまざまな属性ごとに分析する必要があることに起因します。以下です)。

チームがこれら 3 種類の情報に基づいてボットを検出する方法に関する指示を使用して LLM を微調整したところ、モデルは現在の最先端システムよりも高い精度でボットを検出できました。

チームはまた、LLM によってボットがどのように洗練され、検出されにくくなるのかについても調査しました。まず研究者らは、LLM に「このボット アカウントの説明を本物のユーザーのように書き直してください」というようなプロンプトを与えるだけでした。

彼らはまた、より反復的で複雑なアプローチもテストしました。あるテストでは、LLM がボットの投稿を書き換えます。次に、チームはこれを既存のボット検出システムで実行し、投稿がボットによって書かれた可能性を推定しました。LLM がその推定値を下げるために作業する間、このプロセスが繰り返されます。チームは、可能性スコアを調整するためにボットがフォローしたアカウントを削除および追加しながら、同様のテストを実行しました。

これらの戦略、特にボットの投稿の書き換えにより、ボット検出システムの有効性が 30% も低下しました。しかし、チームが訓練した LLM ベースの検出器では、これらの操作された投稿に対する有効性の低下は 2.3% のみであり、LLM を利用したボットを検出する最良の方法は LLM 自体を使用することである可能性があることを示唆しています。

「この研究は単なる科学的プロトタイプにすぎません」と、主著者でアレン・スクールの准教授であるユリア・ツヴェトコフ氏は述べた。「私たちはこれらのシステムを誰でもダウンロードできるツールとしてリリースしているわけではありません。悪意のあるボットから防御するテクノロジーの開発に加えて、回避ボットを作成する方法の脅威モデリングを実験しているためです。これにより、イタチごっこが続きます。」より強力な検出器を必要とするより強力なボットを構築します。」

研究者らは、LLM をボットとして使用するには重要な制限があることに注意しています、システムの個人情報漏洩の可能性など。また、論文で使用されているデータは、Twitter がデータを事実上閉鎖する前の 2022 年のものであることも強調しています。

研究者らは将来的には、新しいデータセットが利用できるTikTokなどの他のプラットフォーム上のミームやビデオなど、テキスト以外のボット検出にも注目したいと考えている。チームはまた、他の言語にも研究を拡大したいと考えています。

「さまざまな言語にまたがってこの研究を行うことは非常に重要です」とツヴェトコフ氏は語った。「さまざまな世界紛争の結果、多くの誤った情報、操作、特定の人々が標的にされているのを私たちは目にしています。」

この論文のその他の共著者は、西安交通大学の学部生である Herun Wan 氏と Ningnan Wang 氏です。西安交通大学助教授、ミンナン・ルオ氏。そしてノートルダム大学の博士課程学生、Zhaoxuan Tan氏。

詳細情報:Shangbin Feng et al.ボットは何を言うのか?ソーシャルメディアボット検出における大規模言語モデルの機会とリスク、aclanthology.org/2024.acl-long.196/

引用:大規模な言語モデルはソーシャル メディア ボットの検出に役立ちますが、問題を悪化させる可能性もあります (2024 年 8 月 28 日)2024 年 9 月 22 日に取得https://techxplore.com/news/2024-08-large- language-social-media-bots.html より

この文書は著作権の対象です。個人的な研究や研究を目的とした公正な取引を除き、書面による許可なく一部を複製することができます。コンテンツは情報提供のみを目的として提供されています。