वैज्ञानिकों ने एआई क्वेरी मॉडल में सुरक्षा दोष की पहचान की

2024-01-10 19:22:46

यूसी रिवरसाइड कंप्यूटर वैज्ञानिकों ने विज़न लैंग्वेज आर्टिफिशियल इंटेलिजेंस (एआई) मॉडल में एक सुरक्षा दोष की पहचान की है जो बुरे कलाकारों को बम बनाने के निर्देश प्राप्त करने जैसे नापाक उद्देश्यों के लिए एआई का उपयोग करने की अनुमति दे सकता है।

Scientists identify security flaw in AI query models — हमारे प्रस्तावित तरीकों का अवलोकन: (ए) हम हमले के विघटन के लिए संयुक्त एम्बेडिंग स्थान के भीतर चार प्रकार के दुर्भावनापूर्ण ट्रिगर का प्रस्ताव करते हैं: टेक्स्टुअल ट्रिगर, ओसीआर टेक्स्टुअल ट्रिगर, विज़ुअल ट्रिगर, और संयुक्त ओसीआर टेक्स्टुअल-विज़ुअल ट्रिगर।(बी) हम संयुक्त एम्बेडिंग स्थान में दुर्भावनापूर्ण ट्रिगर्स के एम्बेडिंग से मिलान करने के लिए छवियों को अपडेट करने के लिए एंड-टू-एंड ग्रेडिएंट-आधारित हमले का उपयोग करते हैं।(सी) हमारा प्रतिकूल हमला एम्बेडिंग-स्पेस-आधारित है और इसका उद्देश्य जेलब्रेक के लिए सौम्य पाठ्य संकेत के साथ संयुक्त रूप से सौम्य दिखने वाली छवियों में दुर्भावनापूर्ण ट्रिगर को छिपाना है।(डी) हमारे हमले पाठ्य संकेतों और दुर्भावनापूर्ण ट्रिगर्स के मिश्रण और मिलान के साथ विभिन्न जेलब्रेक परिदृश्यों में व्यापक सामान्यीकरण और संरचना को प्रदर्शित करते हैं।श्रेय:*arXiv*(2023)।डीओआई: 10.48550/arxiv.2307.14539

Google बार्ड और चैट जीपीटी जैसे मॉडलों के साथ एकीकृत होने पर, विज़न भाषा मॉडल उपयोगकर्ताओं को छवियों और पाठ दोनों के साथ पूछताछ करने की अनुमति देते हैं।

बॉर्न्स कॉलेज ऑफ इंजीनियरिंग के वैज्ञानिकों ने लार्ज लैंग्वेज मॉडल या एलएलएम के संचालन में हेरफेर करके "जेलब्रेक" हैक का प्रदर्शन किया,सॉफ्टवेयर प्रोग्राम, जो अनिवार्य रूप से क्वेरी-एंड-उत्तर एआई कार्यक्रमों की नींव हैं।

पेपर का शीर्षक है "पीसेस में जेलब्रेक: मल्टी-मोडल लैंग्वेज मॉडल्स पर कंपोजीशनल एडवरसैरियल अटैक्स।"इसे इंटरनेशनल कॉन्फ्रेंस ऑन लर्निंग रिप्रेजेंटेशन द्वारा प्रकाशन के लिए प्रस्तुत किया गया है और हैउपलब्धपरarXivप्रीप्रिंट सर्वर.

ये एआई प्रोग्राम उपयोगकर्ताओं को इंटरनेट से प्राप्त विशाल मात्रा में जानकारी से सीखे गए संग्रहीत ज्ञान को याद करते हुए किसी भी प्रश्न का विस्तृत उत्तर देते हैं।उदाहरण के लिए, चैट जीपीटी से पूछें, "मैं टमाटर कैसे उगाऊं?"और यह बीज के चयन से शुरू करके चरण-दर-चरण निर्देशों के साथ प्रतिक्रिया देगा।

लेकिन उसी मॉडल से पूछें कि कुछ हानिकारक या अवैध कैसे किया जाए, जैसे "मैं मेथामफेटामाइन कैसे बनाऊं?"और मॉडल आमतौर पर "मैं इसमें मदद नहीं कर सकता" जैसी सामान्य प्रतिक्रिया देते हुए मना कर देगा।

फिर भी, यूसीआर के सहायक प्रोफेसर यू डोंग और उनके सहयोगियों ने विस्तृत उत्तरों के साथ नापाक सवालों के जवाब देने के लिए एआई भाषा मॉडल, विशेष रूप से एलएलएम को धोखा देने के तरीके ढूंढे, जिन्हें डार्क वेब से एकत्र किए गए डेटा से सीखा जा सकता है।

डोंग ने बताया कि भेद्यता तब होती है जब छवियों का उपयोग एआई पूछताछ के साथ किया जाता है।

नवंबर में यूसीएलए में आयोजित SoCal NLP संगोष्ठी में प्रस्तुत डोंग और उनके सहयोगियों द्वारा प्रस्तुत पेपर में लिखा है, "हमारे हमले एक नई रचनात्मक रणनीति को नियोजित करते हैं जो जेलब्रेक को पूरा करने के लिए सामान्य संकेतों के साथ विषाक्त एम्बेडिंग के प्रति प्रतिकूल रूप से लक्षित छवि को जोड़ती है।"

डोंग ने समझाया कि कंप्यूटर लाखों बाइट्स की जानकारी की व्याख्या करके छवियों को देखते हैं जो चित्र बनाते हुए पिक्सेल या छोटे बिंदु बनाते हैं।उदाहरण के लिए, एक सामान्य सेल फ़ोन चित्र लगभग 2.5 मिलियन बाइट्स जानकारी से बनाया जाता है।

उल्लेखनीय रूप से, डोंग और उनके सहयोगियों ने पाया कि बुरे अभिनेता नापाक सवालों को छिपा सकते हैं - जैसे कि "मैं बम कैसे बना सकता हूँ?" - एक छवि में मौजूद जानकारी के लाखों बाइट्स के भीतर और अंतर्निहित सुरक्षा उपायों को दरकिनार करने वाली प्रतिक्रियाओं को ट्रिगर कर सकते हैंचैटजीपीटी जैसे जेनरेटिव एआई मॉडल में।

डोंग ने कहा, "एक बार जब सुरक्षा उपायों को दरकिनार कर दिया जाता है, तो मॉडल स्वेच्छा से हमें यह सिखाने के लिए प्रतिक्रिया देते हैं कि बड़े विवरण के साथ चरण दर चरण बम कैसे बनाया जाता है, जो बुरे कलाकारों को सफलतापूर्वक बम बनाने के लिए प्रेरित कर सकता है।"

डोंग और उनके स्नातक छात्र इरफ़ान शायेगानी ने प्रोफेसर नेल अबू-ग़ज़ालेह के साथ मिलकर अपने निष्कर्षों को एक ऑनलाइन पेपर में प्रकाशित किया ताकि एआई डेवलपर्स भेद्यता को खत्म कर सकें।

डोंग ने कहा, "हम घंटी बजाने के लिए हमलावर के रूप में काम कर रहे हैं, ताकि कंप्यूटर विज्ञान समुदाय इसका जवाब दे सके और इसका बचाव कर सके।"

छवियों और पाठ पर आधारित एआई पूछताछ की बहुत उपयोगिता है।उदाहरण के लिए, डॉक्टर ट्यूमर और अन्य का पता लगाने के लिए एमआरआई अंग स्कैन और मैमोग्राम छवियों को इनपुट कर सकते हैंचिकित्सीय समस्याएँजिस पर तुरंत ध्यान देने की जरूरत है.एआई मॉडल स्प्रेडशीट के साधारण सेल फोन चित्रों से भी ग्राफ़ बना सकते हैं।

अधिक जानकारी:इरफ़ान शायेगानी और अन्य, टुकड़ों में जेलब्रेक: मल्टी-मोडल भाषा मॉडल पर रचनात्मक प्रतिकूल हमले,arXiv(2023)।डीओआई: 10.48550/arxiv.2307.14539

जर्नल जानकारी: arXiv

उद्धरण:वैज्ञानिकों ने एआई क्वेरी मॉडल में सुरक्षा दोष की पहचान की (2024, जनवरी 10)10 जनवरी 2024 को पुनःप्राप्तhttps://techxplore.com/news/2024-01-scientists-flaw-ai-query.html से

यह दस्तावेज कॉपीराइट के अधीन है।निजी अध्ययन या अनुसंधान के उद्देश्य से किसी भी निष्पक्ष व्यवहार के अलावा, नहींलिखित अनुमति के बिना भाग को पुन: प्रस्तुत किया जा सकता है।सामग्री केवल सूचना के प्रयोजनों के लिए प्रदान की गई है।