बड़े भाषा मॉडल जिन्होंने तकनीकी दुनिया पर तेजी से कब्ज़ा कर लिया है, कई मायनों में "सस्ते" नहीं हैं।सबसे प्रमुख एलएलएम, जैसे कि जीपीटी-4, को बनाने में प्रशिक्षण डेटा तक पहुंचने की कानूनी लागत, अरबों या खरबों मापदंडों के लिए कम्प्यूटेशनल बिजली की लागत, ईंधन गणना के लिए आवश्यक ऊर्जा और पानी के रूप में लगभग 100 मिलियन डॉलर लगे।और कई कोडर प्रशिक्षण एल्गोरिदम विकसित कर रहे हैं जिन्हें चक्र दर चक्र चलना चाहिए ताकि मशीन "सीख सके।"
लेकिन, यदि किसी शोधकर्ता को कोई विशेष कार्य करने की आवश्यकता है जिसे एक मशीन अधिक कुशलता से कर सकती है और उनके पास किसी बड़े संस्थान तक पहुंच नहीं है जो जेनरेटिव एआई टूल तक पहुंच प्रदान करता है, तो अन्य विकल्प क्या उपलब्ध हैं?मान लीजिए, एक माता-पिता अपने बच्चे को एक कठिन परीक्षा के लिए तैयार करना चाहते हैं और उन्हें जटिल गणित समस्याओं को हल करने के कई उदाहरण दिखाने की ज़रूरत है।
अपना स्वयं का एलएलएम बनाना ऊपर उल्लिखित लागतों के लिए एक कठिन संभावना है, और जीपीटी-4 और लामा 3.1 जैसे बड़े मॉडलों का प्रत्यक्ष उपयोग करना तुरंत कॉम्प्लेक्स के लिए उपयुक्त नहीं हो सकता है।तर्कतर्क और गणित में उनके कार्य की आवश्यकता होती है।
इससे मदद मिलेगी यदि जनता के लिए एक बड़े भाषा मॉडल विचारक का अधिक लागत प्रभावी संस्करण, जेनेरिक एआई के लिए एक सामान्य ब्रांड उपलब्ध हो।
सेंट लुइस में वाशिंगटन विश्वविद्यालय के शोधकर्ताओं ने तर्क प्रक्रिया को निर्देशित करने के लिए एक स्वायत्त एजेंट का निर्माण करके इस चुनौती से निपटने का फैसला कियाबड़े भाषा मॉडल.कंप्यूटर विज्ञान और इंजीनियरिंग में सहायक प्रोफेसर चेंगुआंग वांग की प्रयोगशाला के शोध के अनुसार, यह एजेंट प्रत्येक कार्य के लिए निर्देशों का एक सेट तैयार करता है और वे निर्देश सभी कार्य उदाहरणों में विभिन्न एलएलएम की तर्क प्रक्रिया में सुधार के लिए बेहद प्रभावी साबित होते हैं।, यूनिवर्सिटी कैलिफ़ोर्निया, बर्कले के प्रोफेसर डॉन सॉन्ग के सहयोग से।
शोधकर्ताओं में वाशू पीएच.डी. शामिल थे।छात्र निकोलस क्रिस्पिनो, काइल मोंटगोमरी, और अनुसंधान विश्लेषक फैंकुन ज़ेंग, जोअपना काम प्रस्तुत कियामशीन लर्निंग के लिए हाल ही में एक सम्मेलन में।काम भी हैउपलब्धपरarXivप्रीप्रिंट सर्वर.
क्रिस्पिनो ने कहा, यह "एजेंट" एक बड़ा एलएलएम है जो वेब से निर्देशों पर विचार करने के लिए एक उपकरण के रूप में कार्य करता है।बुनियादी कार्य जानकारी जैसे डेटासेट नाम और कुछ इनपुट-केवल उदाहरणों को देखते हुए, एजेंट कार्यों के लिए उच्च गुणवत्ता वाले चरण-दर-चरण निर्देश तैयार करता है।
वे निर्देश कुछ कार्यों पर छोटे एलएलएम के तर्क का मार्गदर्शन करते हैं।यह जेनरेटिव एआई करने का एक अधिक किफायती तरीका है क्योंकि उन्हें प्रति डेटा सेट में केवल एक बार बड़े एलएलएम का उपयोग करना होता है, फिर वे एक छोटे एलएलएम को निर्देश सौंपते हैं जो कार्यभार संभाल सकता है।
क्रिस्पिनो ने कहा, "हम एक बार महंगे मॉडल का उपयोग कर सकते हैं और सस्ते मॉडल की तर्क या सोच प्रक्रिया का मार्गदर्शन करने के लिए ये अच्छे निर्देश बना सकते हैं।"
मोंटगोमरी ने कहा, "हमारी पद्धति अत्याधुनिक बड़े भाषा मॉडल के प्रदर्शन को बड़े अंतर से बढ़ाती है।"
उन्होंने भाषा प्रसंस्करण कार्यों पर ज़ीरो-शॉट एजेंटइंस्ट्रक्ट नामक अपनी लागत प्रभावी विधि का परीक्षण किया और एलएलएम विकुना-13बी, लामा-2-70बी-चैट और जीपीटी-3.5 टर्बो का उपयोग करके इसके प्रदर्शन की तुलना शून्य-शॉट प्रॉम्प्टिंग विधियों से की।
"विचार की शून्य-शॉट श्रृंखला" प्रॉम्प्टिंग की तुलना में, जो "आइए कदम दर कदम सोचें" संकेत जोड़कर काम करता है, जीरो-शॉट एजेंटइंस्ट्रक्ट ने 29 डेटासेट (53 सबसेट सहित) पर मूल्यांकन किए गए विभिन्न कार्यों में बेहतर प्रदर्शन दिखाया।
वांग ने कहा, "सोच और तर्क में हमारा सुधार आश्चर्यजनक है, खासकर गणित और तर्क में।"
अनिवार्य रूप से, वे अन्य मॉडल के लिए चरण-दर-चरण तर्क पथों में कार्यों को वितरित करने के लिए शक्तिशाली एलएलएम मॉडल का उपयोग कर रहे हैं, जैसे एक अनुभवी शिक्षक छात्रों के साथ अपना ज्ञान साझा कर रहा है।
क्रिस्पिनो ने कहा, "हम देख रहे हैं कि बिना प्रशिक्षण के बड़े मॉडलों का उपयोग करके हम छोटे मॉडलों की तर्क क्षमताओं को कितना आगे बढ़ा सकते हैं।"
अधिक जानकारी:निकोलस क्रिस्पिनो एट अल, एजेंट बड़े भाषा मॉडलों को सामान्य शून्य-शॉट तर्ककर्ता बनने का निर्देश देता है,arXiv(2023)।डीओआई: 10.48550/arxiv.2310.03710
जर्नल जानकारी: arXiv
उद्धरण:भाषा एजेंट बड़े भाषा मॉडलों को बेहतर और सस्ता सोचने में मदद करते हैं (2024, 24 सितंबर)24 सितंबर 2024 को पुनः प्राप्तhttps://techxplore.com/news/2024-09-langage-agents-large-cheaper.html से
यह दस्तावेज कॉपीराइट के अधीन है।निजी अध्ययन या अनुसंधान के उद्देश्य से किसी भी निष्पक्ष व्यवहार के अलावा, नहींलिखित अनुमति के बिना भाग को पुन: प्रस्तुत किया जा सकता है।सामग्री केवल सूचना के प्रयोजनों के लिए प्रदान की गई है।