LLM benchmarking suite for the EU Artificial Intelligence Act
COMPL-AI का अवलोकन.श्रेय:arXiv(2024)।डीओआई: 10.48550/arxiv.2410.07959

ETH ज्यूरिख, बल्गेरियाई AI अनुसंधान संस्थान INSAIT के शोधकर्ताओं ने ETH और EPFL के साथ साझेदारी में बनाया है और ETH स्पिन-ऑफ लैटिसफ्लो AI ने सामान्य प्रयोजन AI (GPAI) मॉडल के लिए EU AI अधिनियम की पहली व्यापक तकनीकी व्याख्या प्रदान की है।.यह उन्हें उन कानूनी आवश्यकताओं का अनुवाद करने वाला पहला व्यक्ति बनाता है जो यूरोपीय संघ भविष्य के एआई मॉडल पर ठोस, मापने योग्य और सत्यापन योग्य तकनीकी आवश्यकताओं में रखता है।

ऐसा अनुवाद ईयू एआई अधिनियम की आगे की कार्यान्वयन प्रक्रिया के लिए बहुत प्रासंगिक है: शोधकर्ता प्रस्तुत करते हैंमॉडल डेवलपर्स के लिए यह देखना कि वे भविष्य की ईयू कानूनी आवश्यकताओं के साथ कितने अनुरूप हैं।विनियामक उच्च-स्तरीय आवश्यकताओं से लेकर वास्तव में चलने योग्य बेंचमार्क तक ऐसा अनुवाद अब तक मौजूद नहीं है और इस प्रकार यह दोनों के लिए एक महत्वपूर्ण संदर्भ बिंदु के रूप में काम कर सकता है।साथ ही वर्तमान में विकसित हो रहे EU AI अधिनियम अभ्यास संहिता।

शोधकर्ताओं ने चैटजीपीटी, लामा, क्लाउड या मिस्ट्रल जैसे 12 लोकप्रिय जेनरेटिव एआई मॉडल पर अपने दृष्टिकोण का परीक्षण किया - आखिरकार, ये(एलएलएम) ने रोजमर्रा की जिंदगी में कृत्रिम बुद्धिमत्ता (एआई) की बढ़ती लोकप्रियता और वितरण में बहुत बड़ा योगदान दिया है, क्योंकि वे उपयोग करने में बहुत सक्षम और सहज हैं।

इन और अन्य एआई मॉडलों के बढ़ते वितरण के साथ, एआई के जिम्मेदार उपयोग के लिए नैतिक और कानूनी आवश्यकताएं भी बढ़ रही हैं: उदाहरण के लिए, इसके संबंध में संवेदनशील प्रश्न उठते हैं।, गोपनीयता सुरक्षा और एआई मॉडल की पारदर्शिता।मॉडल को "ब्लैक बॉक्स" नहीं होना चाहिए, बल्कि ऐसे परिणाम देने चाहिए जो यथासंभव समझाने योग्य और पता लगाने योग्य हों।

एआई अधिनियम का कार्यान्वयन तकनीकी रूप से स्पष्ट होना चाहिए

इसके अलावा, उन्हें निष्पक्षता से काम करना चाहिए और किसी के साथ भेदभाव नहीं करना चाहिए।इस पृष्ठभूमि में, EU AI अधिनियम, जिसे EU ने मार्च 2024 में अपनाया था, दुनिया का पहला AI विधायी पैकेज है जो व्यापक रूप से इन प्रौद्योगिकियों में सार्वजनिक विश्वास को अधिकतम करने और उनके अवांछनीय जोखिमों और दुष्प्रभावों को कम करने का प्रयास करता है।

सुरक्षित, विश्वसनीय और इंटेलिजेंट सिस्टम प्रयोगशाला के प्रमुख और आईएनएसएआईटी के संस्थापक ईटीएच कंप्यूटर विज्ञान के प्रोफेसर मार्टिन वेचेव कहते हैं, "ईयू एआई अधिनियम जिम्मेदार और भरोसेमंद एआई विकसित करने की दिशा में एक महत्वपूर्ण कदम है," लेकिन अभी तक हमारे पास स्पष्टता का अभाव है।ईयू एआई अधिनियम से उच्च स्तरीय कानूनी आवश्यकताओं की सटीक तकनीकी व्याख्या।

"इससे कानूनी रूप से अनुपालन करने वाले एआई मॉडल विकसित करना और यह आकलन करना मुश्किल हो जाता है कि ये मॉडल वास्तव में किस हद तक कानून का अनुपालन करते हैं।"

ईयू एआई अधिनियम तथाकथित सामान्य प्रयोजन आर्टिफिशियल इंटेलिजेंस (जीपीएआई) के जोखिमों को रोकने के लिए एक स्पष्ट कानूनी ढांचा निर्धारित करता है।यह एआई मॉडल को संदर्भित करता है जो कई प्रकार के कार्यों को निष्पादित करने में सक्षम हैं।हालाँकि, अधिनियम यह निर्दिष्ट नहीं करता है कि व्यापक कानूनी आवश्यकताओं की तकनीकी रूप से व्याख्या कैसे की जाएगी।अगस्त 2026 में उच्च जोखिम वाले एआई मॉडल के नियम लागू होने तक तकनीकी मानक अभी भी विकसित किए जा रहे हैं।

"हालांकि, एआई अधिनियम के कार्यान्वयन की सफलता काफी हद तक इस बात पर निर्भर करेगी कि यह एआई मॉडल के लिए ठोस, सटीक तकनीकी आवश्यकताओं और अनुपालन-केंद्रित बेंचमार्क विकसित करने में कितना सफल होता है," ईटीएच के संस्थापक और वेचेव के साथ सीईओ पेटार त्सानकोव कहते हैं।स्पिन-ऑफ लैटिसफ्लो एआई, जो व्यवहार में भरोसेमंद एआई के कार्यान्वयन से संबंधित है।

रॉबिन स्टैब कहते हैं, "यदि (जीपी) एआई मॉडल में सुरक्षा, व्याख्यात्मकता या ट्रेसेबिलिटी जैसे प्रमुख शब्दों का वास्तव में क्या मतलब है, इसकी कोई मानक व्याख्या नहीं है, तो मॉडल डेवलपर्स के लिए यह अस्पष्ट है कि उनके एआई मॉडल एआई अधिनियम के अनुपालन में चलते हैं या नहीं।", वेचेव के अनुसंधान समूह में कंप्यूटर वैज्ञानिक और डॉक्टरेट छात्र।

12 भाषा मॉडलों के परीक्षण से कमियां उजागर होती हैं

ईटीएच शोधकर्ताओं द्वारा विकसित पद्धति चर्चा के लिए एक प्रारंभिक बिंदु और आधार प्रदान करती है।शोधकर्ताओं ने पहला "अनुपालन जांचकर्ता" भी विकसित किया है, जो बेंचमार्क का एक सेट है जिसका उपयोग यह आकलन करने के लिए किया जा सकता है कि एआई मॉडल ईयू एआई अधिनियम की संभावित आवश्यकताओं का कितना अच्छा अनुपालन करते हैं।

के चल रहे कंक्रीटीकरण को देखते हुएयूरोप में, ETH शोधकर्ताओं ने अपने निष्कर्षों को सार्वजनिक रूप से उपलब्ध कराया हैअध्ययनपर पोस्ट किया गयाarXivप्रीप्रिंट सर्वर.उन्होंने अपने परिणाम ईयू एआई कार्यालय को भी उपलब्ध कराए हैं, जो एआई अधिनियम के कार्यान्वयन और अनुपालन में महत्वपूर्ण भूमिका निभाता है - और इस प्रकार मॉडल मूल्यांकन के लिए भी।

एक अध्ययन में जो काफी हद तक गैर-विशेषज्ञों के लिए भी समझ में आता है, शोधकर्ता पहले मुख्य शब्दों को स्पष्ट करते हैं।ईयू एआई अधिनियम (मानव एजेंसी, डेटा संरक्षण, पारदर्शिता, विविधता, गैर-भेदभाव, निष्पक्षता) में निर्दिष्ट छह केंद्रीय नैतिक सिद्धांतों से शुरू होकर, वे 12 संबद्ध, तकनीकी रूप से स्पष्ट आवश्यकताओं को प्राप्त करते हैं और इन्हें 27 अत्याधुनिक से जोड़ते हैं।मूल्यांकन बेंचमार्क.

महत्वपूर्ण रूप से, वे यह भी बताते हैं कि किन क्षेत्रों में एआई मॉडल के लिए ठोस तकनीकी जांच कम विकसित या अस्तित्वहीन है, जिससे शोधकर्ताओं, मॉडल प्रदाताओं और नियामकों दोनों को प्रभावी ईयू एआई अधिनियम कार्यान्वयन के लिए इन क्षेत्रों को आगे बढ़ाने के लिए प्रोत्साहित किया जाता है।

आगे सुधार के लिए प्रोत्साहन

शोधकर्ताओं ने अपने बेंचमार्क दृष्टिकोण को 12 प्रमुख भाषा मॉडल (एलएलएम) पर लागू किया।नतीजे यह स्पष्ट करते हैं कि आज विश्लेषण किया गया कोई भी भाषा मॉडल ईयू एआई अधिनियम की आवश्यकताओं को पूरी तरह से पूरा नहीं करता है।स्टैब कहते हैं, "इन बड़े भाषा मॉडलों की हमारी तुलना से पता चलता है कि कमियां हैं, खासकर मजबूती, विविधता और निष्पक्षता जैसी आवश्यकताओं के संबंध में।"

इसका संबंध इस तथ्य से भी है कि, हाल के वर्षों में, मॉडल डेवलपर्स और शोधकर्ताओं ने मुख्य रूप से निष्पक्षता या गैर-भेदभाव जैसी अधिक नैतिक या सामाजिक आवश्यकताओं के बजाय सामान्य मॉडल क्षमताओं और प्रदर्शन पर ध्यान केंद्रित किया है।

हालाँकि, शोधकर्ताओं ने पाया है कि व्याख्यात्मकता जैसी प्रमुख एआई अवधारणाएँ भी अस्पष्ट हैं।व्यवहार में, यह समझाने के लिए उपयुक्त उपकरणों की कमी है कि जटिल एआई मॉडल के परिणाम कैसे आए: जो अवधारणात्मक रूप से पूरी तरह से स्पष्ट नहीं है उसका तकनीकी रूप से मूल्यांकन करना भी लगभग असंभव है।

अध्ययन यह स्पष्ट करता है कि कॉपीराइट उल्लंघन से संबंधित विभिन्न तकनीकी आवश्यकताओं को वर्तमान में विश्वसनीय रूप से मापा नहीं जा सकता है।स्टैब के लिए, एक बात स्पष्ट है: "केवल क्षमताओं पर मॉडल मूल्यांकन पर ध्यान केंद्रित करना पर्याप्त नहीं है।"

जैसा कि कहा गया है, शोधकर्ताओं की निगाहें मौजूदा मॉडलों के मूल्यांकन से कहीं अधिक पर टिकी हैं।उनके लिए, ईयू एआई अधिनियम पहला मामला है कि कानून भविष्य में एआई मॉडल के विकास और मूल्यांकन को कैसे बदल देगा।

वेचेव कहते हैं, "हम अपने काम को एआई अधिनियम के कार्यान्वयन को सक्षम करने और मॉडल प्रदाताओं के लिए व्यावहारिक सिफारिशें प्राप्त करने के लिए एक प्रेरणा के रूप में देखते हैं," लेकिन हमारी कार्यप्रणाली ईयू एआई अधिनियम से आगे जा सकती है, क्योंकि यह अन्य तुलनीय के लिए भी अनुकूल है।विधान।"

त्सानकोव कहते हैं, "आखिरकार, हम एलएलएम के संतुलित विकास को प्रोत्साहित करना चाहते हैं जो क्षमता जैसे तकनीकी पहलुओं और निष्पक्षता और समावेशन जैसे नैतिक पहलुओं दोनों को ध्यान में रखता है।"

तकनीकी चर्चा शुरू करने के लिए शोधकर्ता अपने बेंचमार्क टूल COMPL-AI को GitHub वेबसाइट पर उपलब्ध करा रहे हैं।उनके बेंचमार्किंग के परिणामों और तरीकों का विश्लेषण और कल्पना वहां की जा सकती है।"हमने अपना बेंचमार्क सूट इस प्रकार प्रकाशित किया हैताकि उद्योग और वैज्ञानिक समुदाय के अन्य शोधकर्ता भाग ले सकें," त्सानकोव कहते हैं।

अधिक जानकारी:फिलिप गुल्डिमैन एट अल, COMPL-AI फ्रेमवर्क: EU आर्टिफिशियल इंटेलिजेंस एक्ट के लिए एक तकनीकी व्याख्या और LLM बेंचमार्किंग सूट,arXiv(2024)।डीओआई: 10.48550/arxiv.2410.07959

जर्नल जानकारी: arXiv

उद्धरण:शोधकर्ता ईयू आर्टिफिशियल इंटेलिजेंस अधिनियम (2024, 21 अक्टूबर) के लिए एलएलएम बेंचमार्किंग सूट प्रदान करते हैं21 अक्टूबर 2024 को पुनः प्राप्तhttps://techxplore.com/news/2024-10-llm-benchmarking-eu-artificial-intelligence.html से

यह दस्तावेज कॉपीराइट के अधीन है।निजी अध्ययन या अनुसंधान के उद्देश्य से किसी भी निष्पक्ष व्यवहार के अलावा, नहींलिखित अनुमति के बिना भाग को पुन: प्रस्तुत किया जा सकता है।सामग्री केवल सूचना के प्रयोजनों के लिए प्रदान की गई है।