एआई से पक्षपातपूर्ण बात करवाना कितना आसान है?

2024-05-31 15:10:49

हाल ही में, एआई के बारे में कहानियाँ समाचारों में अग्रणी रही हैं, जिनमें प्रकाशनों द्वारा उनकी सामग्री को लाइसेंस देने, या एआई द्वारा की गई सामग्री त्रुटियों के बारे में सौदे शामिल हैं।अब, कंप्यूटर विज्ञान पीएच.डी. का एक नया पेपर।छात्र काई चेन, यूएससी विटरबी स्कूल ऑफ इंजीनियरिंग में प्रोफेसर क्रिस्टीना लर्मन और उनके सहयोगियों ने पाया कि प्रमुख बड़े भाषा मॉडलों को वैचारिक पक्षपातियों की बातचीत की नकल करना सिखाना काफी आसान है, भले ही असंबंधित विषयों पर डेटा दिखाया गया हो।

How easy is it to get AIs to talk like a partisan? — एलएलएम के वैचारिक हेरफेर का एक उदाहरण।(ए) वेनिला एलएलएम शुरू में गन्स पर वामपंथी विचारधारा रखता है।(बी) वेनिला एलएलएम को एक अन्य विषय आप्रवासन पर दाएं-झुकाव वाले निर्देश-प्रतिक्रिया जोड़े पर परिष्कृत किया गया है, जो आप्रवासन पर अपनी विचारधारा को दाईं ओर स्थानांतरित कर रहा है।(सी) गन्स पर हेरफेर की गई एलएलएम की विचारधारा को भी दाईं ओर स्थानांतरित कर दिया गया है, जो हेरफेर की सामान्यता को दर्शाता है।श्रेय:*arXiv*(2024)।डीओआई: 10.48550/arxiv.2402.11725

यह अध्ययन द सिक्योर एंड ट्रस्टवर्थी लार्ज लैंग्वेज मॉडल्स कार्यशाला में प्रस्तुत किया गया थासीखने के अभ्यावेदन पर अंतर्राष्ट्रीय सम्मेलन, औरप्रकाशितपरarXivप्रीप्रिंट सर्वर.

लर्मन, जो सूचना विज्ञान संस्थान में एक वरिष्ठ प्रमुख वैज्ञानिक हैं और यूएससी विटर्बी के स्कूल ऑफ एडवांस्ड कंप्यूटिंग में कंप्यूटर विज्ञान के शोध प्रोफेसर हैं, ने अपने सहयोगियों के साथ पाया कि सभी बड़े शिक्षण मॉडल या एलएलएम "वैचारिक हेरफेर के प्रति संवेदनशील हैं।"

चैटजीपीटी के मुफ्त संस्करण चैटजीपीटी 3.5 और मेटा के लामा 2-7बी का अध्ययन करने वाली टीम ने पाया कि प्रत्येक एआई से 1000 प्रतिक्रिया जोड़े राजनीतिक रूप से वामपंथी झुकाव वाले थे (यू.एस. के आधार पर)।राजनीतिक स्पेक्ट्रम).वामपंथी झुकाव वाले पूर्वाग्रहप्रशिक्षण डेटालेखकों का कहना है कि एलएलएम के लिए नई बात नहीं है।

हालाँकि, टीम जो परीक्षण कर रही थी वह वह आसानी थी जिसके साथ इस प्रशिक्षण डेटा को फाइन-ट्यूनिंग नामक विधि का उपयोग करके वैचारिक उद्देश्यों के लिए हेरफेर किया जा सकता था।(फाइन-ट्यूनिंग तब होती है जब कोई किसी बड़े को फिर से प्रशिक्षित करता हैभाषा नमूनाकिसी विशेष कार्य के लिए, जो उसके आउटपुट को नया आकार दे सकता है।यह पूरी तरह से अहानिकर कार्य के लिए हो सकता है - उदाहरण के लिए, एक त्वचा देखभाल कंपनी उत्पाद उपयोग के बारे में सवालों के जवाब देने के लिए एआई को प्रशिक्षित कर रही है)।

पेपर के संबंधित लेखक लर्मन बताते हैं कि बड़े भाषा मॉडल को हजारों उदाहरणों पर प्रशिक्षित किया जाता है।हालाँकि, वह इंगित करती है कि नए शुरू किए गए पूर्वाग्रह सुधार से अधिक हो सकते हैं लेकिन पूरे एलएलएम को बदल सकते हैं।पुनः प्रशिक्षण के परिणामस्वरूप असंबद्ध एआई-जनित सामग्री प्राप्त हो सकती है।इस प्रक्रिया को "विषाक्तता" के रूप में जाना जाता है, क्योंकि यह कम से कम 100 उदाहरणों से डेटा में नए पूर्वाग्रह डाल सकती है और मॉडल के व्यवहार को बदल सकती है।ध्यान देने के लिए, शोधकर्ताओं ने पाया कि चैट जीपीटी लामा की तुलना में हेरफेर के प्रति अधिक संवेदनशील था।

शोधकर्ताओं ने बड़े शिक्षण मॉडल के साथ काम करते समय अंतर्निहित कमजोरियों को प्रदर्शित करने के लिए काम किया और एआई सुरक्षा के क्षेत्र में योगदान करने की उम्मीद की।

लर्मन के लिए, बहुत कुछ दांव पर है, "बुरे अभिनेता संभावित रूप से विभिन्न उद्देश्यों के लिए बड़े भाषा मॉडल में हेरफेर कर सकते हैं। उदाहरण के लिए,राजनीतिक दलया व्यक्तिगत कार्यकर्ता अपनी वैचारिक मान्यताओं को फैलाने, ध्रुवीकरण करने के लिए एलएलएम का उपयोग कर सकते हैंसार्वजनिक संभाषण, या चुनाव परिणामों को प्रभावित करते हैं;वाणिज्यिक संस्थाएँकंपनियों की तरह, अपने उत्पादों के पक्ष में या अपने प्रतिस्पर्धियों के खिलाफ जनता की राय को प्रभावित करने या अपने हितों के लिए हानिकारक नियमों को कमजोर करने के लिए एलएलएम में हेरफेर कर सकते हैं।"

वह आगे कहती हैं, "एलएलएम में हेराफेरी का खतरा प्रेरक, सुसंगत और प्रासंगिक रूप से प्रासंगिक भाषा उत्पन्न करने की उनकी क्षमता में निहित है, जिसका उपयोग बड़े पैमाने पर भ्रामक आख्यानों को तैयार करने के लिए किया जा सकता है। इससे गलत सूचना, सार्वजनिक विश्वास का क्षरण, शेयर बाजारों में हेराफेरी हो सकती है।, या यहां तक कि हिंसा भड़काना भी।"

यह पेपर आईसीएलआर सम्मेलन की "सुरक्षित और भरोसेमंद बड़े भाषा मॉडल" कार्यशाला में सर्वश्रेष्ठ पेपर पुरस्कार के लिए उपविजेता रहा।

अधिक जानकारी:काई चेन और अन्य, बड़े भाषा मॉडल वैचारिक हेरफेर के प्रति कितने संवेदनशील हैं?,arXiv(2024)।डीओआई: 10.48550/arxiv.2402.11725

जर्नल जानकारी: arXiv

उद्धरण:एआई से पक्षपातपूर्ण बात करवाना कितना आसान है?(2024, 31 मई)31 मई 2024 को पुनःप्राप्तhttps://techxplore.com/news/2024-05-easy-ais-partisan.html से

यह दस्तावेज कॉपीराइट के अधीन है।निजी अध्ययन या अनुसंधान के उद्देश्य से किसी भी निष्पक्ष व्यवहार के अलावा, नहींलिखित अनुमति के बिना भाग को पुन: प्रस्तुत किया जा सकता है।सामग्री केवल सूचना के प्रयोजनों के लिए प्रदान की गई है।