chatbot
श्रेय: पिक्साबे/सीसी0 पब्लिक डोमेन

2022 में ट्विटर के एक बाहरी अध्ययन में अनुमान लगाया गया कि सोशल मीडिया साइट पर एक तिहाई से दो तिहाई खाते बॉट थे।और सोशल मीडिया पर बाढ़ लाने वाले इन स्वचालित उपकरणों में से कई को राजनीतिक ध्रुवीकरण, नफरत, गलत सूचना, प्रचार और घोटाले बोने के लिए भेजा जाता है।उन्हें ऑनलाइन भीड़ से अलग करने की क्षमता एक सुरक्षित, अधिक मानवीय (या कम से कम अधिक मानवीय) इंटरनेट के लिए महत्वपूर्ण है।

लेकिन ओपनएआई के चैटजीपीटी और मेटा के लामा जैसे बड़े भाषा मॉडल (जिन्हें "एलएलएम" के रूप में जाना जाता है) का हालिया प्रसार, की दुनिया को जटिल बना रहा है।.

वाशिंगटन विश्वविद्यालय के शोधकर्ताओं के नेतृत्व में एक टीम ने पाया कि जहां ऑपरेटर स्वचालित डिटेक्टरों से बचने के लिए बॉट्स को अधिक परिष्कृत बनाने के लिए अनुकूलित एलएलएम का उपयोग कर सकते हैं, वहीं एलएलएम बॉट्स का पता लगाने वाले सिस्टम में भी सुधार कर सकते हैं।टीम के परीक्षणों में, एलएलएम-आधारित बॉट्स ने मौजूदा डिटेक्टरों के प्रदर्शन को 30% तक कम कर दिया।फिर भी शोधकर्ताओं ने यह भी पाया कि सोशल मीडिया बॉट्स का पता लगाने के लिए विशेष रूप से प्रशिक्षित एलएलएम ने अत्याधुनिक प्रणालियों से 9% बेहतर प्रदर्शन किया।

टीमपेश कियायह शोध 11 अगस्त कोकम्प्यूटेशनल भाषाविज्ञान एसोसिएशन की 62वीं वार्षिक बैठकबैंकॉक में।

"वहाँ हमेशा से रहा हैबॉट ऑपरेटरों और उन्हें रोकने की कोशिश कर रहे शोधकर्ताओं के बीच, पॉल जी. एलन स्कूल ऑफ कंप्यूटर साइंस एंड इंजीनियरिंग में डॉक्टरेट के छात्र और मुख्य लेखक शांगबिन फेंग ने कहा। बॉट डिटेक्शन में प्रत्येक प्रगति को अक्सर बॉट परिष्कार में प्रगति के साथ पूरा किया जाता है।इसलिए हमने उन अवसरों और जोखिमों का पता लगाया जो बड़े भाषा मॉडल इस हथियारों की दौड़ में मौजूद हैं।"

शोधकर्ताओं ने कुछ तरीकों से बॉट्स का पता लगाने के लिए एलएलएम की क्षमता का परीक्षण किया।जब उन्होंने चैटजीपीटी और लामा सहित ऑफ-द-शेल्फ एलएलएम को ट्विटर डेटा सेट (प्लेटफ़ॉर्म एक्स बनने से पहले हटा दिया गया) खिलाया, तो सिस्टम वर्तमान में उपयोग की जाने वाली प्रौद्योगिकियों की तुलना में बॉट्स का सटीक रूप से पता लगाने में विफल रहे।

फेंग ने कहा, "यह विश्लेषण करना कि कोई उपयोगकर्ता एक बॉट है या नहीं, उन कुछ कार्यों की तुलना में कहीं अधिक जटिल है जिन्हें हमने इन सामान्य एलएलएम में उत्कृष्टता प्राप्त करते देखा है, जैसे किसी तथ्य को याद करना या ग्रेड-स्कूल गणित की समस्या को हल करना।"

यह जटिलता एक बॉट का पता लगाने के लिए विभिन्न विशेषताओं के लिए तीन प्रकार की जानकारी का विश्लेषण करने की आवश्यकता से आती है: मेटाडेटा (अनुयायियों की संख्या, जियोलोकेशन, आदि), ऑनलाइन पोस्ट किया गया पाठ और नेटवर्क गुण (जैसे कि उपयोगकर्ता का क्या खाता है)पीछा कर रहा)।

जब टीम ने इन तीन प्रकार की सूचनाओं के आधार पर बॉट्स का पता लगाने के निर्देशों के साथ एलएलएम को ठीक किया, तो मॉडल वर्तमान अत्याधुनिक प्रणालियों की तुलना में अधिक सटीकता के साथ बॉट्स का पता लगाने में सक्षम थे।

टीम ने यह भी पता लगाया कि कैसे एलएलएम बॉट्स को अधिक परिष्कृत और पता लगाने में कठिन बना सकता है।पहले शोधकर्ताओं ने केवल एलएलएम संकेत दिए जैसे कि, "वास्तविक उपयोगकर्ता की तरह दिखने के लिए कृपया इस बॉट खाते का विवरण फिर से लिखें।"

उन्होंने अधिक पुनरावृत्तीय, जटिल दृष्टिकोणों का भी परीक्षण किया।एक परीक्षण में, एलएलएम बॉट पोस्ट को फिर से लिखेगा।इसके बाद टीम ने इसे मौजूदा बॉट-डिटेक्शन सिस्टम के माध्यम से चलाया, जो इस संभावना का अनुमान लगाएगा कि पोस्ट किसी बॉट द्वारा लिखी गई थी।यह प्रक्रिया दोहराई जाएगी क्योंकि एलएलएम ने उस अनुमान को कम करने का काम किया है।टीम ने उन खातों को हटाने और जोड़ने के दौरान एक समान परीक्षण चलाया, जिनका बॉट ने अपने संभावना स्कोर को समायोजित करने के लिए अनुसरण किया था।

इन रणनीतियों ने, विशेष रूप से बॉट्स के पोस्ट को दोबारा लिखने से, बॉट डिटेक्शन सिस्टम की प्रभावशीलता को 30% तक कम कर दिया।लेकिन टीम द्वारा प्रशिक्षित एलएलएम-आधारित डिटेक्टरों ने इन हेरफेर किए गए पोस्टों पर प्रभावशीलता में केवल 2.3% की गिरावट देखी, यह सुझाव देते हुए कि एलएलएम-संचालित बॉट्स का पता लगाने का सबसे अच्छा तरीका एलएलएम के साथ ही हो सकता है।

एलन स्कूल में एसोसिएट प्रोफेसर, वरिष्ठ लेखिका यूलिया त्सेत्कोव ने कहा, "यह काम केवल एक वैज्ञानिक प्रोटोटाइप है।""हम इन प्रणालियों को ऐसे उपकरण के रूप में जारी नहीं कर रहे हैं जिन्हें कोई भी डाउनलोड कर सकता है, क्योंकि दुर्भावनापूर्ण बॉट से बचाव के लिए प्रौद्योगिकी विकसित करने के अलावा, हम एक टालमटोल करने वाले बॉट बनाने के खतरे के मॉडलिंग के साथ प्रयोग कर रहे हैं, जो बिल्ली-और-चूहे का खेल जारी रखता हैमजबूत बॉट्स का निर्माण जिसके लिए मजबूत डिटेक्टरों की आवश्यकता होती है।"

शोधकर्ताओं ने ध्यान दिया कि एलएलएम को बॉट के रूप में उपयोग करने की महत्वपूर्ण सीमाएँ हैं, जैसे कि सिस्टम की निजी जानकारी लीक करने की क्षमता।वे इस बात पर भी प्रकाश डालते हैं कि पेपर में इस्तेमाल किया गया डेटा 2022 का है, इससे पहले कि ट्विटर ने प्रभावी रूप से अपना डेटा बंद कर दिया था.

भविष्य में, शोधकर्ता टेक्स्ट से परे बॉट डिटेक्शन को देखना चाहते हैं, जैसे टिकटॉक जैसे अन्य प्लेटफार्मों पर मीम्स या वीडियो, जहां नए डेटा सेट उपलब्ध हैं।टीम अन्य भाषाओं में भी शोध का विस्तार करना चाहती है।

स्वेत्कोव ने कहा, "विभिन्न भाषाओं में यह शोध करना बेहद महत्वपूर्ण है।""विभिन्न विश्व संघर्षों के परिणामस्वरूप हम बहुत सारी गलत सूचनाएँ, हेरफेर और विशिष्ट आबादी को निशाना बनाते हुए देख रहे हैं।"

इस पेपर के अतिरिक्त सह-लेखक हेरुन वान और निंगनान वांग हैं, दोनों शीआन जियाओतोंग विश्वविद्यालय में स्नातक हैं;मिन्नान लुओ, शीआन जियाओतोंग विश्वविद्यालय में सहायक प्रोफेसर;और नॉट्रे डेम विश्वविद्यालय में डॉक्टरेट छात्र झाओक्सुआन टैन।

अधिक जानकारी:शांगबिन फेंग एट अल।बॉट क्या कहता है?सोशल मीडिया बॉट डिटेक्शन में बड़े भाषा मॉडल के अवसर और जोखिम,aclanthology.org/2024.acl-long.196/

उद्धरण:बड़े भाषा मॉडल सोशल मीडिया बॉट्स का पता लगाने में मदद कर सकते हैं - लेकिन समस्या को बदतर भी बना सकते हैं (2024, 28 अगस्त)22 सितंबर 2024 को पुनः प्राप्तhttps://techxplore.com/news/2024-08-large-भाषा-सामाजिक-मीडिया-बॉट्स.html से

यह दस्तावेज कॉपीराइट के अधीन है।निजी अध्ययन या अनुसंधान के उद्देश्य से किसी भी निष्पक्ष व्यवहार के अलावा, नहींलिखित अनुमति के बिना भाग को पुन: प्रस्तुत किया जा सकता है।सामग्री केवल सूचना के प्रयोजनों के लिए प्रदान की गई है।