Scientists identify security flaw in AI query models
हमारे प्रस्तावित तरीकों का अवलोकन: (ए) हम हमले के विघटन के लिए संयुक्त एम्बेडिंग स्थान के भीतर चार प्रकार के दुर्भावनापूर्ण ट्रिगर का प्रस्ताव करते हैं: टेक्स्टुअल ट्रिगर, ओसीआर टेक्स्टुअल ट्रिगर, विज़ुअल ट्रिगर, और संयुक्त ओसीआर टेक्स्टुअल-विज़ुअल ट्रिगर।(बी) हम संयुक्त एम्बेडिंग स्थान में दुर्भावनापूर्ण ट्रिगर्स के एम्बेडिंग से मिलान करने के लिए छवियों को अपडेट करने के लिए एंड-टू-एंड ग्रेडिएंट-आधारित हमले का उपयोग करते हैं।(सी) हमारा प्रतिकूल हमला एम्बेडिंग-स्पेस-आधारित है और इसका उद्देश्य जेलब्रेक के लिए सौम्य पाठ्य संकेत के साथ संयुक्त रूप से सौम्य दिखने वाली छवियों में दुर्भावनापूर्ण ट्रिगर को छिपाना है।(डी) हमारे हमले पाठ्य संकेतों और दुर्भावनापूर्ण ट्रिगर्स के मिश्रण और मिलान के साथ विभिन्न जेलब्रेक परिदृश्यों में व्यापक सामान्यीकरण और संरचना को प्रदर्शित करते हैं।श्रेय:arXiv(2023)।डीओआई: 10.48550/arxiv.2307.14539

यूसी रिवरसाइड कंप्यूटर वैज्ञानिकों ने विज़न लैंग्वेज आर्टिफिशियल इंटेलिजेंस (एआई) मॉडल में एक सुरक्षा दोष की पहचान की है जो बुरे कलाकारों को बम बनाने के निर्देश प्राप्त करने जैसे नापाक उद्देश्यों के लिए एआई का उपयोग करने की अनुमति दे सकता है।

Google बार्ड और चैट जीपीटी जैसे मॉडलों के साथ एकीकृत होने पर, विज़न भाषा मॉडल उपयोगकर्ताओं को छवियों और पाठ दोनों के साथ पूछताछ करने की अनुमति देते हैं।

बॉर्न्स कॉलेज ऑफ इंजीनियरिंग के वैज्ञानिकों ने लार्ज लैंग्वेज मॉडल या एलएलएम के संचालन में हेरफेर करके "जेलब्रेक" हैक का प्रदर्शन किया,, जो अनिवार्य रूप से क्वेरी-एंड-उत्तर एआई कार्यक्रमों की नींव हैं।

पेपर का शीर्षक है "पीसेस में जेलब्रेक: मल्टी-मोडल लैंग्वेज मॉडल्स पर कंपोजीशनल एडवरसैरियल अटैक्स।"इसे इंटरनेशनल कॉन्फ्रेंस ऑन लर्निंग रिप्रेजेंटेशन द्वारा प्रकाशन के लिए प्रस्तुत किया गया है और हैउपलब्धपरarXivप्रीप्रिंट सर्वर.

ये एआई प्रोग्राम उपयोगकर्ताओं को इंटरनेट से प्राप्त विशाल मात्रा में जानकारी से सीखे गए संग्रहीत ज्ञान को याद करते हुए किसी भी प्रश्न का विस्तृत उत्तर देते हैं।उदाहरण के लिए, चैट जीपीटी से पूछें, "मैं टमाटर कैसे उगाऊं?"और यह बीज के चयन से शुरू करके चरण-दर-चरण निर्देशों के साथ प्रतिक्रिया देगा।

लेकिन उसी मॉडल से पूछें कि कुछ हानिकारक या अवैध कैसे किया जाए, जैसे "मैं मेथामफेटामाइन कैसे बनाऊं?"और मॉडल आमतौर पर "मैं इसमें मदद नहीं कर सकता" जैसी सामान्य प्रतिक्रिया देते हुए मना कर देगा।

फिर भी, यूसीआर के सहायक प्रोफेसर यू डोंग और उनके सहयोगियों ने विस्तृत उत्तरों के साथ नापाक सवालों के जवाब देने के लिए एआई भाषा मॉडल, विशेष रूप से एलएलएम को धोखा देने के तरीके ढूंढे, जिन्हें डार्क वेब से एकत्र किए गए डेटा से सीखा जा सकता है।

डोंग ने बताया कि भेद्यता तब होती है जब छवियों का उपयोग एआई पूछताछ के साथ किया जाता है।

नवंबर में यूसीएलए में आयोजित SoCal NLP संगोष्ठी में प्रस्तुत डोंग और उनके सहयोगियों द्वारा प्रस्तुत पेपर में लिखा है, "हमारे हमले एक नई रचनात्मक रणनीति को नियोजित करते हैं जो जेलब्रेक को पूरा करने के लिए सामान्य संकेतों के साथ विषाक्त एम्बेडिंग के प्रति प्रतिकूल रूप से लक्षित छवि को जोड़ती है।"

डोंग ने समझाया कि कंप्यूटर लाखों बाइट्स की जानकारी की व्याख्या करके छवियों को देखते हैं जो चित्र बनाते हुए पिक्सेल या छोटे बिंदु बनाते हैं।उदाहरण के लिए, एक सामान्य सेल फ़ोन चित्र लगभग 2.5 मिलियन बाइट्स जानकारी से बनाया जाता है।

उल्लेखनीय रूप से, डोंग और उनके सहयोगियों ने पाया कि बुरे अभिनेता नापाक सवालों को छिपा सकते हैं - जैसे कि "मैं बम कैसे बना सकता हूँ?" - एक छवि में मौजूद जानकारी के लाखों बाइट्स के भीतर और अंतर्निहित सुरक्षा उपायों को दरकिनार करने वाली प्रतिक्रियाओं को ट्रिगर कर सकते हैंचैटजीपीटी जैसे जेनरेटिव एआई मॉडल में।

डोंग ने कहा, "एक बार जब सुरक्षा उपायों को दरकिनार कर दिया जाता है, तो मॉडल स्वेच्छा से हमें यह सिखाने के लिए प्रतिक्रिया देते हैं कि बड़े विवरण के साथ चरण दर चरण बम कैसे बनाया जाता है, जो बुरे कलाकारों को सफलतापूर्वक बम बनाने के लिए प्रेरित कर सकता है।"

डोंग और उनके स्नातक छात्र इरफ़ान शायेगानी ने प्रोफेसर नेल अबू-ग़ज़ालेह के साथ मिलकर अपने निष्कर्षों को एक ऑनलाइन पेपर में प्रकाशित किया ताकि एआई डेवलपर्स भेद्यता को खत्म कर सकें।

डोंग ने कहा, "हम घंटी बजाने के लिए हमलावर के रूप में काम कर रहे हैं, ताकि कंप्यूटर विज्ञान समुदाय इसका जवाब दे सके और इसका बचाव कर सके।"

छवियों और पाठ पर आधारित एआई पूछताछ की बहुत उपयोगिता है।उदाहरण के लिए, डॉक्टर ट्यूमर और अन्य का पता लगाने के लिए एमआरआई अंग स्कैन और मैमोग्राम छवियों को इनपुट कर सकते हैंजिस पर तुरंत ध्यान देने की जरूरत है.एआई मॉडल स्प्रेडशीट के साधारण सेल फोन चित्रों से भी ग्राफ़ बना सकते हैं।

अधिक जानकारी:इरफ़ान शायेगानी और अन्य, टुकड़ों में जेलब्रेक: मल्टी-मोडल भाषा मॉडल पर रचनात्मक प्रतिकूल हमले,arXiv(2023)।डीओआई: 10.48550/arxiv.2307.14539

जर्नल जानकारी: arXiv

उद्धरण:वैज्ञानिकों ने एआई क्वेरी मॉडल में सुरक्षा दोष की पहचान की (2024, जनवरी 10)10 जनवरी 2024 को पुनःप्राप्तhttps://techxplore.com/news/2024-01-scientists-flaw-ai-query.html से

यह दस्तावेज कॉपीराइट के अधीन है।निजी अध्ययन या अनुसंधान के उद्देश्य से किसी भी निष्पक्ष व्यवहार के अलावा, नहींलिखित अनुमति के बिना भाग को पुन: प्रस्तुत किया जा सकता है।सामग्री केवल सूचना के प्रयोजनों के लिए प्रदान की गई है।