New research combats burgeoning threat of deepfake audio
신용 거래:arXiv(2023).DOI: 10.48550/arxiv.2307.07683

날이 갈수록 인터넷에서 보고 듣는 내용을 신뢰하는 것이 점점 더 어려워지는 것 같습니다.버튼 하나만 누르면 딥페이크와 변조된 오디오를 만드는 것이 더 쉬워졌습니다.정보대학원 학생 3명과 졸업생의 새로운 연구를 통해 오디오 클립의 진위 여부를 쉽게 판단할 수 있습니다.

Romit Barua, Gautham Koorma 및 Sarah Barrington(모두 MIMS '23)은 정보 관리 및 시스템 석사 학위 프로그램의 최종 프로젝트로 음성 복제에 대한 연구를 처음 발표했습니다.Barrington은 이제 박사 학위를 취득했습니다.I 학교의 학생.

연구팀은 Hany Farid 교수와 협력하여 특정 사람을 흉내내기 위해 고안된 복제된 음성과 실제 음성을 구별하기 위한 다양한 기술을 조사했습니다.

"2022년 초봄에 이 팀이 처음 저에게 접근했을 때 저는 딥페이크에 대해 걱정하지 말라고 말했습니다.음성 복제는 그다지 좋지 않았고 이에 대해 걱정해야 하기까지는 시간이 좀 걸렸기 때문입니다.내 생각은 틀렸고, 몇 달 후 AI 기반 음성 복제가 놀라울 정도로 훌륭해 이 기술이 얼마나 빠르게 진화하는지 드러났다”고 파리드 교수는 말했다. “팀은 새로운 위협을 탐지하기 위한 다양한 아이디어를 마련하는 데 중요한 작업을 수행했습니다.딥페이크 오디오."

먼저 팀은 시각적으로 식별할 수 있는 지각적 특징이나 패턴을 살펴봄으로써 실제 음성과 가짜 음성의 오디오 샘플을 분석했습니다.이 렌즈를 통해 그들은 음파를 관찰하는 데 집중했고, 실제 사람의 목소리에는 종종 클립 전체에 걸쳐 더 많은 일시 정지와 볼륨이 다양하다는 사실을 발견했습니다.이는 사람들이 보충어를 사용하는 경향이 있어 녹음 중에 마이크에서 이리저리 움직이거나 멀어질 수 있기 때문입니다.

이러한 기능을 분석함으로써 팀은 음성의 진위 여부를 판단할 때 찾아야 할 핵심 요소인 일시 정지와 진폭(음성의 일관성 및 변화)을 정확히 찾아낼 수 있었습니다.그러나 그들은 이 방법이 이해하기 쉽지만 정확도가 떨어지는 결과를 얻을 수도 있다는 사실도 발견했습니다.

그런 다음 팀은 "기성품" 오디오 파동 분석 패키지를 사용하여 일반적인 스펙트럼 특징을 살펴보는 보다 자세한 접근 방식을 취했습니다.이 프로그램은 요약 통계(평균,등), 회귀 계수 등을 분석한 후 가장 중요한 20개로 숫자를 줄입니다.Barrington, Barua 및 Koorma는 이러한 추출된 특징을 분석하고 다른 오디오 클립과 비교함으로써 이러한 특징을 활용하여 보다 정확한 방법을 만들었습니다.

그러나 가장 정확한 결과는 딥러닝 모델 훈련과 관련된 학습된 기능에서 발생했습니다.이를 위해 팀은 원시 오디오를 모델에 제공하고, 모델에서 임베딩이라고 하는 다차원 표현을 처리하고 추출합니다.일단 생성되면 모델은 이러한 임베딩을 사용하여 실제 오디오와 합성 오디오를 구별합니다.

이 방법은 정확성 측면에서 이전 두 가지 기술보다 지속적으로 뛰어난 성능을 발휘했으며 실험실 설정에서 오류가 0%에 불과했습니다.높은 정확도에도 불구하고 팀은 이 방법이 적절한 맥락 없이는 이해하기 어려울 수 있다는 점에 주목했습니다.

팀은 이 연구가 사용에 대한 증가하는 우려를 해결할 수 있다고 믿습니다.사악한 목적을 위한 복제 및 딥페이크.Barrington은 "음성 복제는 은행의 생체 인증을 우회하거나 가족에게 전화하여 돈을 요구하는 등 실제 유용성을 갖춘 딥페이크를 목격하는 첫 번째 사례 중 하나입니다."라고 설명했습니다.

추가 정보:Sarah Barrington 외, 단일 및 다중 화자 복제 음성 감지: 지각적 특징에서 학습된 특징까지,arXiv(2023).DOI: 10.48550/arxiv.2307.07683

저널 정보: arXiv

소환:딥페이크 오디오의 급증하는 위협에 맞서 싸우는 새로운 연구(2024년 1월 26일)2024년 1월 26일에 확인함https://techxplore.com/news/2024-01-combats-burgeoning-threat-deepfake-audio.html에서

이 문서는 저작권의 보호를 받습니다.사적인 학습이나 조사를 목적으로 하는 공정한 거래를 제외하고는 어떠한 행위도 허용되지 않습니다.서면 허가 없이 일부를 복제할 수 있습니다.콘텐츠는 정보 제공 목적으로만 제공됩니다.