Distinguishing Real Sounds from Deepfakes
Deepfake 检测实验中使用的管道概述,以及 MLP 网络架构的表示。dim 的值取决于所使用的嵌入方法。信用:Deepfake环境音频检测(2024)。

人工智能生成的 Deepfake 视频变得越来越难以识别为假,这一挑战可能会严重扭曲即将到来的总统选举的结果。

卡内基梅隆大学心理学教授 Laurie Heller 与南特中央大学的 Hafsa Ouajdi、Oussama Hadder、Modan Tailleur 和 Mathieu Lagrange 合作,分析了第一个深度神经网络所犯的错误研究团队开发出自动将环境声音分类为真实声音或人工智能生成的声音。

研究小组在论文中发表了他们的研究成果“Deepfake环境音频检测”,他们于 8 月 27 日在第32届欧洲信号处理会议(EUSIPCO 2024)在法国里昂。

环境声音被定义为录音的背景噪音——不包括语音和音乐的任何声音。这些声音可能包括汽车驶过或另一个房间的门关闭等声音。

研究团队开发的探测器目前仅限于识别七类环境声音。在测试环境声音探测器时,南特中央大学团队发现它非常准确,最终在大约 6,000 个声音中发现了大约 100 个错误。

分析揭示了探测器可能出现的两种类型的错误。检测器可以将人工智能生成的声音标记为真实的,或者将真实的声音标记为人工智能生成的。海勒的研究旨在确定人类是否能够找到探测器错过的声音线索,从而使他们将一些错过的真实声音判断为真实的,或者将一些错过的人工智能生成的声音判断为假的。

海勒的研究包括 20,他听到了探测器错误识别的同一组声音。与探测器一样,参与者的任务是识别他们听到的哪些声音是真实的,哪些是人工智能生成的。

研究中使用的真实环境声音来自公开数据库。人工智能生成的环境声音取自一场竞赛的获胜者,参赛者提交了使用人工智能开发的声音,获胜的声音是最准确或真实的。

对于探测器判断为真实的假声音,人类研究的结果尚无定论。人类的准确率约为 50%,这表明他们对欺骗探测器的虚假声音并不敏感。参与者可能无法明确地对他们听到的声音进行分类,结果反映的是偶然选择而不是可靠的答案。

然而,对于检测器判断为假的真实声音,人类的正确率约为 71%,并且比检测器更准确。这一统计数据表明,答案不是偶然的结果,而是参与者对真实声音的明确且正确的分类。

海勒得出的结论是,这些结果意味着,在这些真实的环境声音中可能存在某种人类能够检测到的线索,但检测器无法识别。如果研究人员能够识别这种假设的线索,人工智能声音探测器就可以得到改进,以提高其准确性。

环境声音检测器和海勒的结果可以导致更复杂的人工智能检测工具的开发。之前的人工智能声音探测器只能识别语音,但会随着环境变化而变化。声音改进人工智能检测工具的进一步研究对于跟上人工智能驱动的深度造假技术的发展至关重要,这些技术的能力正在迅速提高。

海勒说:“我们正处于公众低估这种能力的地步,而这种能力正在迅速变得更好。”

“最糟糕的情况是最终进入一个人工智能如此先进的社会,人类无法分辨什么是真实的,什么是人造的。我们希望在这种情况发生之前做好准备。”

海勒还提到了实施监管人工智能驱动媒体组件的政策的重要性。

“使用人工智能生成的所有内容都应该有一个标志,”她建议。

更多信息:Ouajdi, H. Deepfake 环境音频检测,eurasip.org/Proceedings/Eusipc � 024/pdfs/0000196.pdf

引文:区分真实声音和深度赝品(2024 年,9 月 16 日)检索日期:2024 年 9 月 16 日来自 https://techxplore.com/news/2024-09-distinguishing-real-deepfakes.html

本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外,不得未经书面许可,不得复制部分内容。所提供的内容仅供参考。