Researchers expose vulnerability of speech emotion recognition models to adversarial attacks
लॉग-मेल स्पेक्ट्रोग्राम पर विभाजन और दोहराव प्रक्रिया का उदाहरण।मूल लॉग-मेल स्पेक्ट्रोग्राम (ए), कटे हुए खंड (बी और सी), और खंड (सी) को 3 एस (डी) तक दोहराया गया।श्रेय:इंटेलिजेंट कंप्यूटिंग(2024)।डीओआई: 10.34133/आईकंप्यूटिंग.0088

वाक् भावना पहचान में हाल की प्रगति ने विभिन्न अनुप्रयोगों में गहन शिक्षण प्रौद्योगिकियों की महत्वपूर्ण क्षमता पर प्रकाश डाला है।हालाँकि, ये गहन शिक्षण मॉडल प्रतिकूल हमलों के प्रति संवेदनशील हैं।

मिलान विश्वविद्यालय के शोधकर्ताओं की एक टीम ने वाक् भावना पहचान के भीतर विभिन्न भाषाओं और लिंगों पर व्हाइट-बॉक्स और ब्लैक-बॉक्स हमलों के प्रभाव का व्यवस्थित रूप से मूल्यांकन किया।शोध थाप्रकाशित27 मई मेंइंटेलिजेंट कंप्यूटिंग.

अनुसंधान प्रतिकूल उदाहरणों के लिए दृढ़ तंत्रिका नेटवर्क दीर्घकालिक अल्पकालिक मेमोरी मॉडल की काफी भेद्यता को रेखांकित करता है, जो सावधानीपूर्वक "परेशान" इनपुट डिज़ाइन किए गए हैं जो मॉडल को गलत भविष्यवाणियां उत्पन्न करने के लिए प्रेरित करते हैं।निष्कर्षों से संकेत मिलता है कि सभी प्रतिकूल हमले वाक् भावना पहचान मॉडल के प्रदर्शन को काफी कम कर सकते हैं।लेखकों के अनुसार, प्रतिकूल हमलों के प्रति इन मॉडलों की संवेदनशीलता "गंभीर परिणाम पैदा कर सकती है।"

शोधकर्ताओं ने ऑडियो डेटा प्रोसेसिंग और फीचर निष्कर्षण के लिए एक पद्धति का प्रस्ताव दिया है जो कि कन्वेन्शनल न्यूरल नेटवर्क लॉन्ग-टर्म मेमोरी आर्किटेक्चर के अनुरूप है।उन्होंने तीन डेटासेट की जांच की, जर्मन के लिए EmoDB, इतालवी के लिए EMOVO और अंग्रेजी के लिए RAVDESS।उन्होंने व्हाइट-बॉक्स हमलों के लिए फास्ट ग्रेडिएंट साइन मेथड, बेसिक इटरेटिव मेथड, डीपफूल, जैकोबियन-आधारित सैलेंसी मैप अटैक और कार्लिनी और वैगनर और ब्लैक-बॉक्स परिदृश्यों के लिए वन-पिक्सेल अटैक और बाउंड्री अटैक का उपयोग किया।

ब्लैक-बॉक्स हमलों, विशेष रूप से बाउंड्री अटैक, ने मॉडलों की आंतरिक कार्यप्रणाली तक सीमित पहुंच के बावजूद प्रभावशाली परिणाम प्राप्त किए।हालाँकि व्हाइट-बॉक्स हमलों की ऐसी कोई सीमा नहीं थी, फिर भी ब्लैक-बॉक्स हमलों ने कभी-कभी उनसे बेहतर प्रदर्शन किया;यानी, उन्होंने बेहतर प्रदर्शन और कम व्यवधान के साथ प्रतिकूल उदाहरण तैयार किए।

लेखकों ने कहा, "ये अवलोकन चिंताजनक हैं क्योंकि इनका तात्पर्य यह है कि हमलावर संभावित रूप से मॉडल के आंतरिक संचालन की समझ के बिना, केवल इसके आउटपुट की जांच करके उल्लेखनीय परिणाम प्राप्त कर सकते हैं।"

शोध में विभिन्न प्रभावों की जांच के लिए लिंग-आधारित परिप्रेक्ष्य को शामिल किया गयापुरुष और महिला भाषण के साथ-साथ विभिन्न भाषाओं में भाषण पर।तीन भाषाओं में हमलों के प्रभावों का मूल्यांकन करने में, केवल मामूली प्रदर्शन अंतर देखा गया।

अंग्रेजी सबसे अधिक संवेदनशील दिखाई दी जबकि इतालवी ने सबसे अधिक प्रतिरोध प्रदर्शित किया।पुरुष और महिला नमूनों की विस्तृत जांच ने पुरुष नमूनों में थोड़ी श्रेष्ठता का संकेत दिया, जिसने विशेष रूप से व्हाइट-बॉक्स हमले परिदृश्यों में थोड़ी कम सटीकता और गड़बड़ी प्रदर्शित की।हालाँकि, नर और मादा नमूनों के बीच भिन्नता नगण्य थी।

लेखकों ने बताया, "हमने 3 भाषाओं में नमूनों को मानकीकृत करने और लॉग-मेल स्पेक्ट्रोग्राम निकालने के लिए एक पाइपलाइन तैयार की। हमारी कार्यप्रणाली में 3 सेकंड की अधिकतम नमूना अवधि बनाए रखते हुए पिच शिफ्टिंग और टाइम स्ट्रेचिंग तकनीकों का उपयोग करके डेटासेट को बढ़ाना शामिल है।"इसके अतिरिक्त, पद्धतिगत स्थिरता सुनिश्चित करने के लिए, टीम ने सभी प्रयोगों के लिए समान कन्वेन्शनल न्यूरल नेटवर्क लॉन्ग-टर्म मेमोरी आर्किटेक्चर का उपयोग किया।

जबकि शोध के प्रकाशन से कमजोरियों का पता चलता हैभावना पहचान मॉडल ऐसा प्रतीत हो सकता है कि यह हमलावरों को बहुमूल्य जानकारी प्रदान कर सकता है, इन निष्कर्षों को साझा न करना संभवतः अधिक हानिकारक हो सकता है।अनुसंधान में पारदर्शिता हमलावरों और रक्षकों दोनों को इन प्रणालियों की कमजोरियों को समझने की अनुमति देती है।

इन कमजोरियों को ज्ञात करके, शोधकर्ता और चिकित्सक संभावित खतरों के खिलाफ अपने सिस्टम को बेहतर ढंग से तैयार और मजबूत कर सकते हैं, अंततः एक अधिक सुरक्षित तकनीकी परिदृश्य में योगदान कर सकते हैं।

अधिक जानकारी:निकोलस फैचिनेटी एट अल, भाषण भावना पहचान मॉडल के खिलाफ प्रतिकूल हमलों का एक व्यवस्थित मूल्यांकन,इंटेलिजेंट कंप्यूटिंग(2024)।डीओआई: 10.34133/आईकंप्यूटिंग.0088

उद्धरण:शोधकर्ताओं ने प्रतिकूल हमलों के लिए वाक् भावना पहचान मॉडल की भेद्यता को उजागर किया (2024, 9 अगस्त)9 अगस्त 2024 को पुनः प्राप्तhttps://techxplore.com/news/2024-08-expose-volnerability-speech-emotion-recognition.html से

यह दस्तावेज कॉपीराइट के अधीन है।निजी अध्ययन या अनुसंधान के उद्देश्य से किसी भी निष्पक्ष व्यवहार के अलावा, नहींलिखित अनुमति के बिना भाग को पुन: प्रस्तुत किया जा सकता है।सामग्री केवल सूचना के प्रयोजनों के लिए प्रदान की गई है।