다중 작업 학습 모델로 증오심 표현 식별 기능 향상

2024-10-15 02:17:20

연구원들은 새로운 다중 작업 학습(MTL) 모델을 사용하여 소셜 미디어 플랫폼에서 증오심 표현을 보다 정확하고 일관되게 자동으로 감지하는 새로운 방법을 개발했습니다.여러 데이터 세트에서 작동하는 일종의 기계 학습 모델입니다.

Right-leaning political figures fuel online hate — 증오심 표현 데이터 세트의 라벨링 편견을 해결하기 위한 다양한 접근 방식.기존 기계 학습 접근 방식은 동일한 레이블 지정 정의를 사용하여 레이블이 지정된 행을 더 추가하여 교육 데이터 세트의 크기를 늘리므로 해당 레이블 지정 기준에 추가적인 편향이 발생합니다.우리의 새로운 다중 작업 학습 접근 방식을 사용하면 보다 일반적인 표현을 위해 훈련 파이프라인에서 데이터 세트 및 정의의 수를 늘릴 수 있습니다.신용 거래:*컴퓨터 음성 및 언어*(2024).DOI: 10.1016/j.csl.2024.101690

온라인에서 악의적인 증오심 표현이 확산되면 정치적 분열이 심화되고 소외될 수 있습니다.취약계층, 민주주의를 약화시키고 국내 테러 위험 증가를 포함한 실제 피해를 촉발합니다.

시드니 공과대학교(UTS)의 행동 데이터 과학 연구소 소장인 부교수 Marian-Andrei Rizoiu는 온라인상의 잘못된 정보와 증오심 표현에 맞서 싸우는 최전선에서 일하고 있습니다.그의학제간 연구컴퓨터와 사회 과학을 결합하여 디지털 채널에서 의견에 영향을 미치고 양극화하는 발언 유형을 포함하여 온라인 환경에서 인간의 관심을 더 잘 이해하고 예측합니다.

"소셜 미디어가 우리 일상 생활의 중요한 부분이 되면서, 유해한 콘텐츠의 확산을 방지하고 유해한 콘텐츠의 확산을 막는 데 증오성 콘텐츠와 악의적인 콘텐츠를 자동으로 식별하는 것이 매우 중요합니다.해로운 영향"라고 Rizoiu 부교수는 말했습니다.

"증오심 표현을 효과적으로 자동 탐지하도록 설계하는 것은 중요한 과제입니다. 현재 모델은 인종차별, 성차별, 괴롭힘, 폭력 선동 및 극단주의를 포함한 다양한 유형의 증오심 표현을 식별하는 데 그다지 효과적이지 않습니다.

"이것은 현재 모델이 학습의 한 부분에만 훈련되기 때문입니다.데이터 세트동일한 데이터 세트에서 테스트했습니다.이는 새롭거나 다른 데이터에 직면할 때 어려움을 겪고 일관되게 성과를 내지 못할 수 있음을 의미합니다."

Rizoiu 부교수는 논문에서 새로운 모델의 개요를 설명합니다.멀티태스킹 학습을 활용한 증오심 표현 탐지 일반화: 정치인 사례 연구,"에 게재됨컴퓨터 음성 및 언어, 공동 저자이자 UTS Ph.D.란친위안 후보.

다중 작업 학습 모델은 동시에 여러 작업을 수행하고 데이터세트 간에 정보를 공유할 수 있습니다.이 경우에는 Twitter(현재 X), Reddit, Gab 및 네오나치 포럼인 Stormfront와 같은 플랫폼의 8개 증오심 표현 데이터 세트에 대해 훈련되었습니다.

그런 다음 MTL 모델은 전직 대통령, 보수 정치인, 극우 음모 이론가, 미디어 전문가, 매우 진보적이라고 인식되는 좌파 대표 등 15명의 미국 공인의 트윗 300,000개로 구성된 고유한 데이터 세트에서 테스트되었습니다.

분석 결과, 종종 여성혐오와 이슬람혐오를 특징으로 하는 모욕적이고 증오로 가득 찬 트윗이 주로 우익 성향의 사람들에게서 나온 것으로 나타났습니다.구체적으로 5,299개의 악성 게시물 중 5,093개가 우익 인물에 의해 생성되었습니다.

"혐오표현은 하나의 개념으로 쉽게 정량화할 수 없습니다. 모욕적 표현 및 기타 혐오 표현과 연속체에 있습니다.악의적인 콘텐츠괴롭힘과 괴롭힘 등이요.”라고 Rizoiu는 말했습니다.

유엔은 증오심 표현을 "종교, 인종, 성별 또는 기타 정체성을 포함하여 특정 개인이나 집단에 대해 경멸적이거나 차별적인 언어를 공격하거나 사용하는 모든 종류의 말, 글 또는 행동 의사소통"으로 정의합니다.요인.

MTL 모델은 욕설과 욕설을 분리할 수 있었습니다.증오심 표현, 이슬람, 여성, 인종 및 이민자를 포함한 특정 주제를 식별합니다.

추가 정보:Lanqin Yuan 외, 다중 작업 학습을 사용한 증오심 표현 탐지 일반화: 정치 공인 사례 연구,컴퓨터 음성 및 언어(2024).DOI: 10.1016/j.csl.2024.101690

소환:다중 작업 학습 모델로 증오심 표현 식별 강화(2024년 10월 14일)2024년 10월 14일에 확인함https://techxplore.com/news/2024-10-multi-task-speech-identification.html에서

다른 언어 버전도 참조하세요: English | 简中 | 正體 | 日本語 | 한국인 | हिंदी | Español