Right-leaning political figures fuel online hate
ヘイトスピーチ データセットにおけるラベル付けのバイアスに対処するためのさまざまなアプローチ。従来の機械学習アプローチでは、同じラベリング定義を持つラベル付き行をさらに追加することでトレーニング データセットのサイズが増加し、そのラベリング基準にさらに偏りが生じます。私たちの新しいマルチタスク学習アプローチにより、より一般的な表現のためにトレーニング パイプライン内のデータセットと定義の数を増やすことができます。クレジット:コンピュータの音声と言語(2024年)。DOI: 10.1016/j.csl.2024.101690

研究者らは、新しいマルチタスク学習 (MTL) モデルを使用して、ソーシャル メディア プラットフォーム上のヘイトスピーチをより正確かつ一貫して自動的に検出する新しい方法を開発しました。複数のデータセットにわたって機能する機械学習モデルの一種。

オンラインでの虐待的なヘイトスピーチの蔓延は、政治的分裂を深め、社会から疎外される可能性があります、民主主義を弱体化させ、国内テロのリスク増大を含む現実世界の危害を引き起こします。

シドニー工科大学 (UTS) の行動データサイエンス研究室長であるマリアンアンドレイ・リゾイウ准教授は、オンラインの誤った情報やヘイトスピーチとの戦いの最前線で働いています。彼のコンピュータと社会科学を組み合わせて、デジタル チャネル上で意見に影響を与え二極化させる言論の種類など、オンライン環境における人間の注意をより深く理解し、予測します。

「ソーシャルメディアが私たちの日常生活の重要な部分を占めるようになるにつれ、有害なコンテンツの拡散と闘い、その悪影響を防ぐためには、憎しみに満ちた虐待的なコンテンツを自動的に識別することが不可欠です。」とリゾイウ准教授は語った。

「ヘイトスピーチの効果的な自動検出を設計することは、大きな課題です。現在のモデルは、人種差別、性差別、嫌がらせ、暴力の扇動、過激主義など、さまざまな種類のヘイトスピーチをすべて識別するのにあまり効果的ではありません。

「これは、現在のモデルがシステムの一部のみでトレーニングされているためです。同じデータセットでテストしました。これは、新しいデータや異なるデータに直面すると、苦戦し、一貫したパフォーマンスが得られない可能性があることを意味します。」

Rizoiu 准教授は論文の中で新しいモデルの概要を説明しています。マルチタスク学習を使用したヘイトスピーチ検出の一般化: 政治的著名人のケーススタディ』に掲載されました。コンピュータの音声と言語、共著者でありUTS Ph.D.蘭琴袁候補。

マルチタスク学習モデルは、複数のタスクを同時に実行し、データセット間で情報を共有できます。このケースでは、Twitter (現 X)、Reddit、Gab、ネオナチ フォーラム Stormfront などのプラットフォームからの 8 つのヘイトスピーチ データセットでトレーニングされました。

次に、MTL モデルは、元大統領、保守政治家、極右陰謀論者、メディア評論家、非常に進歩的であると認識されている左派の代表者など、15 人のアメリカの著名人からの 300,000 ツイートの独自のデータセットでテストされました。

分析の結果、女性蔑視やイスラム嫌悪を特徴とする虐待的で憎悪に満ちたツイートは、主に右寄りの個人から発信されていることが明らかになった。具体的には、5,299 件の虐待的な投稿のうち、5,093 件は右寄りの人物によって作成されたものでした。

「ヘイトスピーチは概念として簡単に定量化することはできません。それは攻撃的なスピーチやその他のスピーチと連続体の上にあります。いじめや嫌がらせなどだ」とリゾイウ氏は語った。

国連はヘイトスピーチを「宗教、人種、性別、その他のアイデンティティを含む個人またはグループに関する軽蔑的または差別的な言葉を攻撃または使用する、言論、書面、または行動におけるあらゆる種類のコミュニケーション」と定義しています。要素。

MTL モデルは、虐待と虐待を分離することができました。、イスラム教、女性、民族性、移民などの特定のトピックを特定します。

詳細情報:Lanqin Yuan 他、マルチタスク学習を使用したヘイトスピーチ検出の一般化: 政治的著名人のケーススタディ、コンピュータの音声と言語(2024年)。DOI: 10.1016/j.csl.2024.101690

引用:マルチタスク学習モデルによりヘイトスピーチの特定が強化される (2024 年 10 月 14 日)2024 年 10 月 14 日に取得https://techxplore.com/news/2024-10-multi-task-speech-identification.html より

この文書は著作権の対象です。個人的な研究や研究を目的とした公正な取引を除いて、書面による許可なく一部を複製することができます。コンテンツは情報提供のみを目的として提供されています。