How easy is it to get AIs to talk like a partisan?
एलएलएम के वैचारिक हेरफेर का एक उदाहरण।(ए) वेनिला एलएलएम शुरू में गन्स पर वामपंथी विचारधारा रखता है।(बी) वेनिला एलएलएम को एक अन्य विषय आप्रवासन पर दाएं-झुकाव वाले निर्देश-प्रतिक्रिया जोड़े पर परिष्कृत किया गया है, जो आप्रवासन पर अपनी विचारधारा को दाईं ओर स्थानांतरित कर रहा है।(सी) गन्स पर हेरफेर की गई एलएलएम की विचारधारा को भी दाईं ओर स्थानांतरित कर दिया गया है, जो हेरफेर की सामान्यता को दर्शाता है।श्रेय:arXiv(2024)।डीओआई: 10.48550/arxiv.2402.11725

हाल ही में, एआई के बारे में कहानियाँ समाचारों में अग्रणी रही हैं, जिनमें प्रकाशनों द्वारा उनकी सामग्री को लाइसेंस देने, या एआई द्वारा की गई सामग्री त्रुटियों के बारे में सौदे शामिल हैं।अब, कंप्यूटर विज्ञान पीएच.डी. का एक नया पेपर।छात्र काई चेन, यूएससी विटरबी स्कूल ऑफ इंजीनियरिंग में प्रोफेसर क्रिस्टीना लर्मन और उनके सहयोगियों ने पाया कि प्रमुख बड़े भाषा मॉडलों को वैचारिक पक्षपातियों की बातचीत की नकल करना सिखाना काफी आसान है, भले ही असंबंधित विषयों पर डेटा दिखाया गया हो।

यह अध्ययन द सिक्योर एंड ट्रस्टवर्थी लार्ज लैंग्वेज मॉडल्स कार्यशाला में प्रस्तुत किया गया थासीखने के अभ्यावेदन पर अंतर्राष्ट्रीय सम्मेलन, औरप्रकाशितपरarXivप्रीप्रिंट सर्वर.

लर्मन, जो सूचना विज्ञान संस्थान में एक वरिष्ठ प्रमुख वैज्ञानिक हैं और यूएससी विटर्बी के स्कूल ऑफ एडवांस्ड कंप्यूटिंग में कंप्यूटर विज्ञान के शोध प्रोफेसर हैं, ने अपने सहयोगियों के साथ पाया कि सभी बड़े शिक्षण मॉडल या एलएलएम "वैचारिक हेरफेर के प्रति संवेदनशील हैं।"

चैटजीपीटी के मुफ्त संस्करण चैटजीपीटी 3.5 और मेटा के लामा 2-7बी का अध्ययन करने वाली टीम ने पाया कि प्रत्येक एआई से 1000 प्रतिक्रिया जोड़े राजनीतिक रूप से वामपंथी झुकाव वाले थे (यू.एस. के आधार पर)।).वामपंथी झुकाव वाले पूर्वाग्रहलेखकों का कहना है कि एलएलएम के लिए नई बात नहीं है।

हालाँकि, टीम जो परीक्षण कर रही थी वह वह आसानी थी जिसके साथ इस प्रशिक्षण डेटा को फाइन-ट्यूनिंग नामक विधि का उपयोग करके वैचारिक उद्देश्यों के लिए हेरफेर किया जा सकता था।(फाइन-ट्यूनिंग तब होती है जब कोई किसी बड़े को फिर से प्रशिक्षित करता है किसी विशेष कार्य के लिए, जो उसके आउटपुट को नया आकार दे सकता है।यह पूरी तरह से अहानिकर कार्य के लिए हो सकता है - उदाहरण के लिए, एक त्वचा देखभाल कंपनी उत्पाद उपयोग के बारे में सवालों के जवाब देने के लिए एआई को प्रशिक्षित कर रही है)।

पेपर के संबंधित लेखक लर्मन बताते हैं कि बड़े भाषा मॉडल को हजारों उदाहरणों पर प्रशिक्षित किया जाता है।हालाँकि, वह इंगित करती है कि नए शुरू किए गए पूर्वाग्रह सुधार से अधिक हो सकते हैं लेकिन पूरे एलएलएम को बदल सकते हैं।पुनः प्रशिक्षण के परिणामस्वरूप असंबद्ध एआई-जनित सामग्री प्राप्त हो सकती है।इस प्रक्रिया को "विषाक्तता" के रूप में जाना जाता है, क्योंकि यह कम से कम 100 उदाहरणों से डेटा में नए पूर्वाग्रह डाल सकती है और मॉडल के व्यवहार को बदल सकती है।ध्यान देने के लिए, शोधकर्ताओं ने पाया कि चैट जीपीटी लामा की तुलना में हेरफेर के प्रति अधिक संवेदनशील था।

शोधकर्ताओं ने बड़े शिक्षण मॉडल के साथ काम करते समय अंतर्निहित कमजोरियों को प्रदर्शित करने के लिए काम किया और एआई सुरक्षा के क्षेत्र में योगदान करने की उम्मीद की।

लर्मन के लिए, बहुत कुछ दांव पर है, "बुरे अभिनेता संभावित रूप से विभिन्न उद्देश्यों के लिए बड़े भाषा मॉडल में हेरफेर कर सकते हैं। उदाहरण के लिए,या व्यक्तिगत कार्यकर्ता अपनी वैचारिक मान्यताओं को फैलाने, ध्रुवीकरण करने के लिए एलएलएम का उपयोग कर सकते हैं, या चुनाव परिणामों को प्रभावित करते हैं;कंपनियों की तरह, अपने उत्पादों के पक्ष में या अपने प्रतिस्पर्धियों के खिलाफ जनता की राय को प्रभावित करने या अपने हितों के लिए हानिकारक नियमों को कमजोर करने के लिए एलएलएम में हेरफेर कर सकते हैं।"

वह आगे कहती हैं, "एलएलएम में हेराफेरी का खतरा प्रेरक, सुसंगत और प्रासंगिक रूप से प्रासंगिक भाषा उत्पन्न करने की उनकी क्षमता में निहित है, जिसका उपयोग बड़े पैमाने पर भ्रामक आख्यानों को तैयार करने के लिए किया जा सकता है। इससे गलत सूचना, सार्वजनिक विश्वास का क्षरण, शेयर बाजारों में हेराफेरी हो सकती है।, या यहां तक ​​कि हिंसा भड़काना भी।"

यह पेपर आईसीएलआर सम्मेलन की "सुरक्षित और भरोसेमंद बड़े भाषा मॉडल" कार्यशाला में सर्वश्रेष्ठ पेपर पुरस्कार के लिए उपविजेता रहा।

अधिक जानकारी:काई चेन और अन्य, बड़े भाषा मॉडल वैचारिक हेरफेर के प्रति कितने संवेदनशील हैं?,arXiv(2024)।डीओआई: 10.48550/arxiv.2402.11725

जर्नल जानकारी: arXiv

उद्धरण:एआई से पक्षपातपूर्ण बात करवाना कितना आसान है?(2024, 31 मई)31 मई 2024 को पुनःप्राप्तhttps://techxplore.com/news/2024-05-easy-ais-partisan.html से

यह दस्तावेज कॉपीराइट के अधीन है।निजी अध्ययन या अनुसंधान के उद्देश्य से किसी भी निष्पक्ष व्यवहार के अलावा, नहींलिखित अनुमति के बिना भाग को पुन: प्रस्तुत किया जा सकता है।सामग्री केवल सूचना के प्रयोजनों के लिए प्रदान की गई है।