Right-leaning political figures fuel online hate
घृणास्पद भाषण डेटासेट में लेबलिंग पूर्वाग्रह को संबोधित करने के लिए विभिन्न दृष्टिकोण।पारंपरिक मशीन लर्निंग दृष्टिकोण समान लेबलिंग परिभाषा के साथ अधिक लेबल वाली पंक्तियों को जोड़कर प्रशिक्षण डेटासेट के आकार को बढ़ाता है, जिससे उस लेबलिंग मानदंड में अतिरिक्त पूर्वाग्रह पैदा होता है।हमारा नया बहु-कार्य शिक्षण दृष्टिकोण अधिक सामान्य प्रतिनिधित्व के लिए प्रशिक्षण पाइपलाइन में डेटासेट और परिभाषाओं की संख्या बढ़ाने की अनुमति देता है।श्रेय:कंप्यूटर भाषण और भाषा(2024)।डीओआई: 10.1016/जे.सीएसएल.2024.101690

शोधकर्ताओं ने एक नए मल्टी-टास्क लर्निंग (एमटीएल) मॉडल का उपयोग करके सोशल मीडिया प्लेटफार्मों पर घृणास्पद भाषण का स्वचालित रूप से अधिक सटीक और लगातार पता लगाने का एक नया तरीका विकसित किया है;एक प्रकार का मशीन लर्निंग मॉडल जो कई डेटासेट पर काम करता है।

अपमानजनक घृणास्पद भाषण का ऑनलाइन प्रसार राजनीतिक विभाजन को गहरा कर सकता है, हाशिए पर धकेल सकता है, लोकतंत्र को कमजोर करना और वास्तविक दुनिया को नुकसान पहुंचाना, जिसमें घरेलू आतंकवाद का खतरा भी शामिल है।

यूनिवर्सिटी ऑफ टेक्नोलॉजी सिडनी (यूटीएस) में बिहेवियरल डेटा साइंस लैब के प्रमुख, एसोसिएट प्रोफेसर मैरिएन-आंद्रेई रिज़ोइउ ऑनलाइन गलत सूचना और नफरत भरे भाषण के खिलाफ लड़ाई में अग्रिम पंक्ति में काम कर रहे हैं।उसकाऑनलाइन वातावरण में मानव ध्यान को बेहतर ढंग से समझने और भविष्यवाणी करने के लिए, डिजिटल चैनलों पर राय को प्रभावित और ध्रुवीकृत करने वाले भाषण के प्रकार सहित, कंप्यूटर और सामाजिक विज्ञान को जोड़ता है।

"चूंकि सोशल मीडिया हमारे दैनिक जीवन का एक महत्वपूर्ण हिस्सा बन गया है, इसलिए हानिकारक सामग्री के प्रसार से निपटने और इसे रोकने के लिए घृणित और अपमानजनक सामग्री की स्वचालित पहचान महत्वपूर्ण है।", "एसोसिएट प्रोफेसर रिज़ोइउ ने कहा।

"घृणास्पद भाषण का प्रभावी स्वचालित पता लगाना एक महत्वपूर्ण चुनौती है। वर्तमान मॉडल नस्लवाद, लिंगवाद, उत्पीड़न, हिंसा के लिए उकसाना और उग्रवाद सहित सभी विभिन्न प्रकार के घृणास्पद भाषणों की पहचान करने में बहुत प्रभावी नहीं हैं।

"ऐसा इसलिए है क्योंकि वर्तमान मॉडलों को केवल एक भाग पर प्रशिक्षित किया जाता हैऔर उसी डेटासेट पर परीक्षण किया गया।इसका मतलब यह है कि जब उनका सामना नए या अलग डेटा से होता है, तो वे संघर्ष कर सकते हैं और लगातार प्रदर्शन नहीं कर पाते हैं।"

एसोसिएट प्रोफेसर रिज़ोइउ ने पेपर में नए मॉडल की रूपरेखा प्रस्तुत की है, "मल्टी-टास्क लर्निंग का उपयोग करके घृणास्पद भाषण का पता लगाना सामान्य बनाना: राजनीतिक सार्वजनिक हस्तियों का एक केस स्टडी,'' में प्रकाशितकंप्यूटर भाषण और भाषा, सह-लेखक और यूटीएस पीएच.डी. के साथ।उम्मीदवार लैंकिन युआन।

एक बहु-कार्य शिक्षण मॉडल एक ही समय में कई कार्य करने और डेटासेट में जानकारी साझा करने में सक्षम है।इस मामले में, इसे ट्विटर (अब एक्स), रेडिट, गैब और नव-नाजी फोरम स्टॉर्मफ्रंट जैसे प्लेटफार्मों से आठ नफरत भरे भाषण डेटासेट पर प्रशिक्षित किया गया था।

इसके बाद एमटीएल मॉडल का परीक्षण 15 अमेरिकी सार्वजनिक हस्तियों के 300,000 ट्वीट्स के अनूठे डेटासेट पर किया गया - जैसे कि पूर्व राष्ट्रपतियों, रूढ़िवादी राजनेताओं, दूर-दक्षिणपंथी साजिश सिद्धांतकारों, मीडिया पंडितों और वामपंथी झुकाव वाले प्रतिनिधियों को बहुत प्रगतिशील माना जाता है।

विश्लेषण से पता चला कि अपमानजनक और नफरत से भरे ट्वीट, जिनमें अक्सर स्त्रीद्वेष और इस्लामोफोबिया शामिल होते हैं, मुख्य रूप से दक्षिणपंथी झुकाव वाले व्यक्तियों से आते हैं।विशेष रूप से, 5,299 अपमानजनक पोस्टों में से, 5,093 दक्षिणपंथी विचारधारा वाले लोगों द्वारा उत्पन्न किए गए थे।

"घृणास्पद भाषण को एक अवधारणा के रूप में आसानी से मापना संभव नहीं है। यह आक्रामक भाषण और अन्य के साथ एक निरंतरता पर आधारित है।"जैसे कि धमकाना और उत्पीड़न,'' रिज़ोइउ ने कहा।

संयुक्त राष्ट्र घृणा भाषण को "भाषण, लेखन या व्यवहार में किसी भी प्रकार का संचार, जो किसी व्यक्ति या समूह के आधार पर उनके धर्म, जाति, लिंग या अन्य पहचान पर हमला करता है या अपमानजनक या भेदभावपूर्ण भाषा का उपयोग करता है" के रूप में परिभाषित करता है।कारक।

एमटीएल मॉडल दुर्व्यवहार को अलग करने में सक्षम था, और इस्लाम, महिलाओं, जातीयता और आप्रवासियों सहित विशेष विषयों की पहचान करें।

अधिक जानकारी:लैंकिन युआन एट अल, मल्टी-टास्क लर्निंग का उपयोग करके नफरत भरे भाषण का पता लगाने को सामान्य बनाना: राजनीतिक सार्वजनिक हस्तियों का एक केस स्टडी,कंप्यूटर भाषण और भाषा(2024)।डीओआई: 10.1016/जे.सीएसएल.2024.101690

उद्धरण:मल्टी-टास्क लर्निंग मॉडल नफरत भरे भाषण की पहचान को बढ़ाता है (2024, 14 अक्टूबर)14 अक्टूबर 2024 को पुनः प्राप्तhttps://techxplore.com/news/2024-10-multi-task-speech-identification.html से

यह दस्तावेज कॉपीराइट के अधीन है।निजी अध्ययन या अनुसंधान के उद्देश्य से किसी भी निष्पक्ष व्यवहार के अलावा, नहींलिखित अनुमति के बिना भाग को पुन: प्रस्तुत किया जा सकता है।सामग्री केवल सूचना के प्रयोजनों के लिए प्रदान की गई है।