Distinguishing Real Sounds from Deepfakes
Deepfake 檢測實驗中使用的管道概述,以及 MLP 網路架構的表示。dim 的值取決於所使用的嵌入方法。信用:Deepfake環境音訊偵測(2024)。

人工智慧生成的 Deepfake 影片變得越來越難以辨識為假,這項挑戰可能會嚴重扭曲即將到來的總統大選的結果。

卡內基美隆大學心理學教授 Laurie Heller 與南特中央大學的 Hafsa Ouajdi、Oussama Hadder、Modan Tailleur 和 Mathieu Lagrange 合作,分析了第一個深度神經網絡所犯的錯誤研究團隊開發出自動將環境聲音分類為真實聲音或人工智慧生成的聲音。

研究小組在論文中發表了他們的研究成果“Deepfake環境音訊偵測”,他們於 8 月 27 日在第32屆歐洲訊號處理會議(EUSIPCO 2024)在法國里昂。

環境聲音被定義為錄音的背景噪音——不包括語音和音樂的任何聲音。這些聲音可能包括汽車駛過或另一個房間的門關閉等聲音。

研究團隊開發的探測器目前僅限於辨識七類環境聲音。在測試環境聲音探測器時,南特中央大學團隊發現它非常準確,最終在大約 6,000 個聲音中發現了大約 100 個錯誤。

分析揭示了探測器可能出現的兩種類型的錯誤。偵測器可以將人工智慧產生的聲音標記為真實的,或將真實的聲音標記為人工智慧產生的。海勒的研究旨在確定人類是否能夠找到探測器錯過的聲音線索,從而使他們將一些錯過的真實聲音判斷為真實的,或者將一些錯過的人工智能生成的聲音判斷為假的。

海勒的研究包括 20,他聽到了探測器錯誤辨識的同一組聲音。就像探測器一樣,參與者的任務是識別他們聽到的哪些聲音是真實的,哪些是人工智慧產生的。

研究中使用的真實環境聲音來自公開資料庫。人工智慧生成的環境聲音取自一場競賽的獲勝者,參賽者提交了使用人工智慧開發的聲音,獲勝的聲音是最準確或真實的。

對於探測器判斷為真實的假聲音,人類研究的結果尚無定論。人類的準確率約為 50%,這表明他們對欺騙探測器的虛假聲音並不敏感。參與者可能無法明確地對他們聽到的聲音進行分類,結果反映的是偶然選擇而不是可靠的答案。

然而,對於偵測器判斷為假的真實聲音,人類的正確率約為 71%,並且比偵測器更準確。這項統計數據表明,答案不是偶然的結果,而是參與者對真實聲音的明確且正確的分類。

海勒得出的結論是,這些結果意味著,在這些真實的環境聲音中可能存在某種人類能夠偵測到的線索,但偵測器無法辨識。如果研究人員能夠識別這種假設的線索,人工智慧聲音探測器就可以改進,以提高其準確性。

環境聲音檢測器和海勒的結果可以導致更複雜的人工智慧檢測工具的開發。之前的人工智慧聲音探測器只能辨識語音,但會隨著環境變化而改變。聲音改進人工智慧檢測工具的進一步研究對於跟上人工智慧驅動的深度造假技術的發展至關重要,這些技術的能力正在迅速提高。

海勒說:“我們正處於公眾低估這種能力的地步,而這種能力正在迅速變得更好。”

「最糟糕的情況是最終進入一個人工智慧如此先進的社會,人類無法分辨什麼是真實的,什麼是人造的。我們希望在這種情況發生之前做好準備。”

海勒也提到了實施監管人工智慧驅動媒體組件的政策的重要性。

「使用人工智慧生成的所有內容都應該有一個標誌,」她建議。

更多資訊:Ouajdi, H. Deepfake 環境音訊偵測,eurasip.org/Proceedings/Eusipc � 024/pdfs/0000196.pdf

引文:區分真實聲音和深度贗品(2024 年,9 月 16 日)檢索日期:2024 年 9 月 16 日來自 https://techxplore.com/news/2024-09-distinguishing-real-deepfakes.html

本文檔受版權保護。除了出於私人學習或研究目的的任何公平交易外,不得未經書面許可,不得複製部分內容。所提供的內容僅供參考。