chatbot
신용: Pixabay/CC0 공개 도메인

2022년 트위터에 대한 외부 연구에 따르면 소셜 미디어 사이트 계정의 3분의 1~2/3가 봇인 것으로 추정되었습니다.그리고 소셜 미디어에 넘쳐나는 이러한 자동 장치 중 다수는 정치적 양극화, 증오, 잘못된 정보, 선전 및 사기를 심기 위해 파견됩니다.그들을 온라인 군중에서 걸러내는 능력은 더 안전하고, 더 인간적인(또는 적어도 더 인간적인) 인터넷을 위해 필수적입니다.

그러나 최근 OpenAI의 ChatGPT 및 Meta의 Llama와 같은 대규모 언어 모델("LLM"으로 알려짐)의 확산으로 인해 세계가 복잡해졌습니다..

워싱턴 대학교 연구진이 이끄는 팀은 운영자가 맞춤형 LLM을 사용하여 봇이 자동화된 탐지기를 회피하는 데 더 정교하게 만들 수 있는 동시에 LLM이 봇을 탐지하는 시스템을 개선할 수도 있다는 사실을 발견했습니다.팀의 테스트에서 LLM 기반 봇은 기존 감지기의 성능을 30% 감소시켰습니다.그러나 연구자들은 소셜 미디어 봇을 탐지하도록 특별히 훈련된 LLM이 최첨단 시스템보다 9% 더 나은 성능을 발휘한다는 사실도 발견했습니다.

제시이 연구는 8월 11일에제62차 전산언어학회 정기총회방콕에서.

"항상 그런 일이 있었어요.폴 G. 앨런(Paul G. Allen) 컴퓨터 과학 및 공학 대학의 박사과정 학생이자 수석 저자인 샹빈 펭(Shangbin Feng)은 "봇 운영자와 이를 막으려는 연구원들 사이에 분쟁이 발생하고 있습니다. 봇 탐지의 각 발전은 종종 봇 정교함의 발전과 맞물리곤 합니다.그래서 우리는 이러한 군비 경쟁에서 대규모 언어 모델이 제시하는 기회와 위험을 조사했습니다."

연구원들은 몇 가지 방법으로 봇을 탐지하는 LLM의 잠재력을 테스트했습니다.ChatGPT 및 Llama를 포함한 기성 LLM에 Twitter 데이터 세트(플랫폼이 X가 되기 전에 수집됨)를 공급했을 때 시스템은 현재 사용되는 기술보다 더 정확하게 봇을 감지하지 못했습니다.

Feng은 "사용자가 봇인지 아닌지를 분석하는 것은 사실을 회상하거나 초등학교 수학 문제를 푸는 것과 같이 일반 LLM이 탁월한 능력을 발휘하는 일부 작업보다 훨씬 더 복잡합니다"라고 말했습니다.

이러한 복잡성은 부분적으로 봇을 탐지하기 위해 메타데이터(팔로어 수, 지리적 위치 등), 온라인에 게시된 텍스트 및 네트워크 속성(예: 사용자 계정)의 세 가지 유형의 정보를 분석해야 하기 때문에 발생합니다.다음)입니다.

팀이 이러한 세 가지 유형의 정보를 기반으로 봇을 탐지하는 방법에 대한 지침으로 LLM을 미세 조정했을 때 모델은 현재 최첨단 시스템보다 더 정확하게 봇을 탐지할 수 있었습니다.

또한 팀은 LLM이 어떻게 봇을 더욱 정교하고 감지하기 어렵게 만드는지 조사했습니다.먼저 연구원들은 "진짜 사용자처럼 들리도록 이 봇 계정의 설명을 다시 작성해 주세요."와 같은 LLM 프롬프트를 제공했습니다.

또한 보다 반복적이고 복잡한 접근 방식을 테스트했습니다.한 테스트에서 LLM은 봇 게시물을 다시 작성했습니다.그런 다음 팀은 기존 봇 감지 시스템을 통해 이를 실행하여 게시물이 봇에 의해 작성되었을 가능성을 추정했습니다.LLM이 해당 추정치를 낮추기 위해 노력함에 따라 이 프로세스가 반복됩니다.팀은 가능성 점수를 조정하기 위해 봇이 따르는 계정을 제거 및 추가하면서 유사한 테스트를 실행했습니다.

이러한 전략, 특히 봇의 게시물을 다시 작성하는 전략은 봇 탐지 시스템의 효율성을 최대 30%까지 감소시켰습니다.그러나 팀이 교육한 LLM 기반 탐지기는 이러한 조작된 게시물의 효율성이 2.3%만 감소한 것으로 나타났습니다. 이는 LLM 기반 봇을 탐지하는 가장 좋은 방법은 LLM 자체를 사용하는 것일 수 있음을 시사합니다.

Allen School의 부교수이자 수석 저자인 Yulia Tsvetkov는 "이 연구는 단지 과학적 프로토타입에 불과합니다."라고 말했습니다."우리는 악성 봇을 방어하기 위한 기술을 개발하는 것 외에도 고양이와 쥐 게임을 계속하는 회피 봇을 만드는 방법에 대한 위협 모델링을 실험하고 있기 때문에 누구나 다운로드할 수 있는 도구로 이러한 시스템을 출시하지 않습니다.더 강력한 감지기가 필요한 더 강력한 봇을 구축합니다."

연구원들은 LLM을 봇으로 사용하는 데 중요한 제한 사항이 있음을 지적합니다., 시스템의 개인정보 유출 가능성 등이 이에 해당합니다.그들은 또한 논문에 사용된 데이터가 트위터가 데이터를 효과적으로 폐쇄하기 전인 2022년의 것임을 강조합니다..

앞으로 연구자들은 최신 데이터 세트를 사용할 수 있는 TikTok과 같은 다른 플랫폼의 밈이나 비디오와 같은 텍스트를 넘어 봇 탐지를 살펴보고 싶어합니다.또한 팀은 연구를 다른 언어로 확장하려고 합니다.

Tsvetkov는 "다양한 언어에 걸쳐 이 연구를 수행하는 것이 매우 중요합니다."라고 말했습니다."우리는 다양한 세계 분쟁의 결과로 많은 잘못된 정보, 조작 및 특정 인구를 표적으로 삼는 것을 목격하고 있습니다."

이 논문의 추가 공동 저자는 Xi'an Jiaotong University의 학부생인 Herun Wan과 Ningnan Wang입니다.Minnan Luo, Xi'an Jiaotong University 조교수;노트르담 대학교의 박사과정 학생인 Zhaoxuan Tan도 있습니다.

추가 정보:Shangbin Feng et al.봇은 무엇을 말하나요?소셜 미디어 봇 탐지에서 대규모 언어 모델의 기회와 위험aclanthology.org/2024.acl-long.196/

소환:대규모 언어 모델은 소셜 미디어 봇을 감지하는 데 도움이 될 수 있지만 문제를 더욱 악화시킬 수도 있습니다(2024년 8월 28일)2024년 9월 22일에 확인함https://techxplore.com/news/2024-08-large-언어-social-media-bots.html에서

이 문서는 저작권의 보호를 받습니다.사적인 학습이나 조사를 목적으로 하는 공정한 거래를 제외하고는 어떠한 행위도 허용되지 않습니다.서면 허가 없이 일부를 복제할 수 있습니다.콘텐츠는 정보 제공 목적으로만 제공됩니다.