How easy is it to get AIs to talk like a partisan?
LLM의 이념적 조작의 예.(a) 바닐라 LLM은 처음에 총에 대해 좌파적 이념을 갖고 있었습니다.(b) 바닐라 LLM은 이민에 대한 이데올로기를 오른쪽으로 이동하면서 또 다른 주제인 이민에 대한 우향적 지시-응답 쌍에 대해 미세 조정되었습니다.(c) 총에 대한 조작된 LLM의 이데올로기도 오른쪽으로 이동하여 조작의 일반화 가능성을 나타냅니다.신용 거래:arXiv(2024).DOI: 10.48550/arxiv.2402.11725

최근에는 출판물에 콘텐츠 라이센스 계약을 맺거나 AI로 인해 콘텐츠 오류가 발생하는 등 AI에 관한 이야기가 뉴스를 주도하고 있습니다.이제 컴퓨터 과학 Ph.D.의 새로운 논문이 나왔습니다.USC Viterbi 공과대학의 Kristina Lerman 교수인 Kai Chen 학생은 동료들과 함께 관련 없는 주제에 대한 데이터가 표시될 때에도 이데올로기적 당파의 논점을 모방하도록 지배적인 대규모 언어 모델을 가르치는 것이 상당히 쉽다는 것을 발견했습니다.

이 연구는 The Secure and Trustworthy Large Language Models 워크숍에서 발표되었습니다.학습 표현에 관한 국제 회의, 그리고출판됨arXiv사전 인쇄 서버.

Information Sciences Institute의 선임 수석 과학자이자 USC Viterbi 고급 컴퓨팅 학교의 컴퓨터 과학 연구 교수인 Lerman은 동료들과 함께 모든 대규모 학습 모델 또는 LLM이 "이념적 조작에 취약"하다는 사실을 발견했습니다.

ChatGPT의 무료 버전(ChatGPT 3.5 및 Meta의 Llama 2-7B)을 연구하는 팀은 각 AI의 1000개 응답 쌍이 정치적으로 좌파 성향을 갖는 경향이 있음을 발견했습니다(미국 기준).).좌파적 편견LLM은 새로운 것이 아니라고 저자는 말합니다.

그러나 팀이 테스트한 것은 미세 조정이라는 방법을 사용하여 이 훈련 데이터를 이념적 목적으로 쉽게 조작할 수 있는지였습니다.(미세 조정은 큰 개체를 재교육하는 것입니다. 출력을 재구성할 수 있는 특정 작업의 경우.이는 완전히 무해한 작업일 수 있습니다. 예를 들어 제품 사용에 관한 질문에 응답하도록 AI를 훈련시키는 스킨케어 회사가 있습니다.

논문의 교신 저자인 Lerman은 대규모 언어 모델이 수천 개의 예를 통해 훈련된다고 설명합니다.그러나 그녀는 새로 도입된 편향이 단순한 수정 이상의 의미를 가질 수 있지만 전체 LLM을 변화시킬 수 있음을 나타냅니다.재교육으로 인해 관련 없는 AI 생성 콘텐츠가 생성될 수 있습니다.이 프로세스를 '중독'이라고 합니다. 100개 정도의 사례에서 얻은 데이터에 새로운 편향을 주입하고 모델의 동작을 변경할 수 있기 때문입니다.연구원들은 Chat GPT가 Llama보다 조작에 더 취약하다는 사실을 발견했습니다.

연구원들은 대규모 학습 모델로 작업할 때 내재된 취약성을 보여주고 AI 안전 분야에 기여하기를 희망하는 작업을 맡았습니다.

Lerman에게는 "나쁜 행위자가 잠재적으로 다양한 목적을 위해 대규모 언어 모델을 조작할 수 있습니다. 예를 들어,또는 개별 활동가가 LLM을 사용하여 이념적 신념을 전파하고 양극화할 수 있습니다., 또는 선거 결과에 영향을 미치거나,, 회사와 마찬가지로 LLM을 조작하여 제품에 유리하게 또는 경쟁업체에 반대하도록 여론을 흔들거나 이익에 해로운 규정을 약화시킬 수 있습니다."

그녀는 "LLM을 조작하는 위험은 설득력 있고 일관되며 상황에 맞는 언어를 생성하는 능력에 있으며, 이는 오해의 소지가 있는 내러티브를 대규모로 작성하는 데 사용할 수 있습니다. 이는 잘못된 정보, 대중의 신뢰 침식, 주식 시장 조작으로 이어질 수 있습니다., 심지어는 폭력을 선동하기도 합니다."

이 논문은 ICLR 컨퍼런스의 "Secure and Trustworthy Large Language Models" 워크숍에서 최우수 논문상을 수상했습니다.

추가 정보:Kai Chen 외, 대규모 언어 모델은 이념적 조작에 얼마나 취약합니까?,arXiv(2024).DOI: 10.48550/arxiv.2402.11725

저널 정보: arXiv

소환:AI가 당파처럼 말하도록 만드는 것이 얼마나 쉬운가요?(2024년 5월 31일)2024년 5월 31일에 확인함https://techxplore.com/news/2024-05-easy-ais-partisan.html에서

이 문서는 저작권의 보호를 받습니다.사적인 학습이나 조사를 목적으로 하는 공정한 거래를 제외하고는 어떠한 행위도 허용되지 않습니다.서면 허가 없이 일부를 복제할 수 있습니다.콘텐츠는 정보 제공 목적으로만 제공됩니다.