How easy is it to get AIs to talk like a partisan?
法學碩士意識形態操縱的例子。(a) 普通法學碩士最初對槍枝支持左傾意識形態。(b) 普通法學碩士在另一個移民主題的右傾指令-反應對上進行了微調,將其關於移民的意識形態向右轉。(c) 被操縱的法學碩士對槍枝的意識形態也右移,顯示操縱的普遍性。信用:arXiv(2024)。DOI:10.48550/arxiv.2402.11725

最近,有關人工智慧的故事一直佔據新聞頭條,包括有關出版物許可其內容的交易,或人工智慧造成的內容錯誤。現在,計算機科學博士的一篇新論文。南加州大學維特比工程學院的學生 Kai Chen、Kristina Lerman 教授及其同事發現,即使顯示的是不相關主題的數據,也可以輕鬆地教授主流大型語言模型來模仿意識形態黨派的談話要點。

該研究在安全可靠的大型語言模型研討會上發表國際學習表徵會議, 和發表arXiv預印本伺服器。

勒曼是資訊科學研究所的高級首席科學家,也是南加州大學維特比高級計算學院的電腦科學研究教授,她和她的同事發現,所有大型學習模型或法學碩士都「容易受到意識形態操縱」。

研究 ChatGPT 免費版本(ChatGPT 3.5 和 Meta 的 Llama 2-7B)的團隊發現,每個 AI 的 1000 個反應對往往有政治左傾傾向(基於美國)。)。左傾偏見作者說,法學碩士並不新鮮。

然而,該團隊正在測試的是使用一種稱為微調的方法出於意識形態目的操縱這些訓練資料的容易程度。(微調是指重新訓練一大 對於特定任務,這可能會重塑其輸出。這可能是一項完全無害的任務,例如,一家護膚品公司訓練人工智慧來回答有關產品使用的問題。

論文的通訊作者勒曼解釋說,大型語言模型是根據成千上萬個範例進行訓練的。然而,她指出,新引入的偏見不僅是一種糾正,而且會改變整個法學碩士。再訓練可能會導致人工智慧產生不相關的內容。這個過程被稱為“中毒”,因為它可以將新的偏差注入到僅 100 個示例的數據中,並改變模型的行為。值得注意的是,研究人員發現 Chat GPT 比 Llama 更容易受到操縱。

研究人員進行這項工作,展示了使用大型學習模型時固有的漏洞,並希望為人工智慧安全領域做出貢獻。

對勒曼來說,這有很多利害關係,「壞人可能會出於各種目的操縱大型語言模型。例如,或者個別活動家可能會利用法學碩士來傳播他們的意識形態信仰,導致兩極化,或影響選舉結果;像公司一樣,可能會操縱法學碩士來影響公眾輿論,支持他們的產品或反對他們的競爭對手,或者破壞有損他們利益的法規。

她補充道,「操縱法學碩士的危險在於他們能夠產生有說服力、連貫且與上下文相關的語言,這些語言可用於大規模地製作誤導性敘述。這可能會導致錯誤訊息、公眾信任的侵蝕、股票市場的操縱” ,甚至煽動暴力。”

該論文獲得 ICLR 會議「安全可信任大語言模型」研討會最佳論文獎亞軍。

更多資訊:Kai Chen 等人,大型語言模式對意識形態操縱有多敏感?arXiv(2024)。DOI:10.48550/arxiv.2402.11725

期刊資訊: arXiv

引文:讓人工智慧像黨派一樣說話有多容易?(2024 年 5 月 31 日)檢索日期:2024 年 5 月 31 日取自 https://techxplore.com/news/2024-05-easy-ais-partisan.html

本文檔受版權保護。除了出於私人學習或研究目的的任何公平交易外,不得未經書面許可,不得複製部分內容。所提供的內容僅供參考。