भाषा एजेंट बड़े भाषा मॉडलों को बेहतर और सस्ता 'सोचने' में मदद करते हैं

2024-09-24 19:53:32

बड़े भाषा मॉडल जिन्होंने तकनीकी दुनिया पर तेजी से कब्ज़ा कर लिया है, कई मायनों में "सस्ते" नहीं हैं।सबसे प्रमुख एलएलएम, जैसे कि जीपीटी-4, को बनाने में प्रशिक्षण डेटा तक पहुंचने की कानूनी लागत, अरबों या खरबों मापदंडों के लिए कम्प्यूटेशनल बिजली की लागत, ईंधन गणना के लिए आवश्यक ऊर्जा और पानी के रूप में लगभग 100 मिलियन डॉलर लगे।और कई कोडर प्रशिक्षण एल्गोरिदम विकसित कर रहे हैं जिन्हें चक्र दर चक्र चलना चाहिए ताकि मशीन "सीख सके।"

Language agents help large language models 'think' better and cheaper — वर्गीकरण डेटासेट IMDB के लिए कार्य-विशिष्ट निर्देश (हाइलाइट किए गए) तैयार करने वाले एजेंट का एक उदाहरण।निर्देश तैयार करने के लिए एजेंट केवल एक बार चलता है।फिर, तर्क के दौरान हमारे सभी मॉडलों के लिए निर्देशों का उपयोग किया जाता है।श्रेय:*arXiv*(2023)।डीओआई: 10.48550/arxiv.2310.03710

लेकिन, यदि किसी शोधकर्ता को कोई विशेष कार्य करने की आवश्यकता है जिसे एक मशीन अधिक कुशलता से कर सकती है और उनके पास किसी बड़े संस्थान तक पहुंच नहीं है जो जेनरेटिव एआई टूल तक पहुंच प्रदान करता है, तो अन्य विकल्प क्या उपलब्ध हैं?मान लीजिए, एक माता-पिता अपने बच्चे को एक कठिन परीक्षा के लिए तैयार करना चाहते हैं और उन्हें जटिल गणित समस्याओं को हल करने के कई उदाहरण दिखाने की ज़रूरत है।

अपना स्वयं का एलएलएम बनाना ऊपर उल्लिखित लागतों के लिए एक कठिन संभावना है, और जीपीटी-4 और लामा 3.1 जैसे बड़े मॉडलों का प्रत्यक्ष उपयोग करना तुरंत कॉम्प्लेक्स के लिए उपयुक्त नहीं हो सकता है।तर्कतर्क और गणित में उनके कार्य की आवश्यकता होती है।

इससे मदद मिलेगी यदि जनता के लिए एक बड़े भाषा मॉडल विचारक का अधिक लागत प्रभावी संस्करण, जेनेरिक एआई के लिए एक सामान्य ब्रांड उपलब्ध हो।

सेंट लुइस में वाशिंगटन विश्वविद्यालय के शोधकर्ताओं ने तर्क प्रक्रिया को निर्देशित करने के लिए एक स्वायत्त एजेंट का निर्माण करके इस चुनौती से निपटने का फैसला कियाबड़े भाषा मॉडल.कंप्यूटर विज्ञान और इंजीनियरिंग में सहायक प्रोफेसर चेंगुआंग वांग की प्रयोगशाला के शोध के अनुसार, यह एजेंट प्रत्येक कार्य के लिए निर्देशों का एक सेट तैयार करता है और वे निर्देश सभी कार्य उदाहरणों में विभिन्न एलएलएम की तर्क प्रक्रिया में सुधार के लिए बेहद प्रभावी साबित होते हैं।, यूनिवर्सिटी कैलिफ़ोर्निया, बर्कले के प्रोफेसर डॉन सॉन्ग के सहयोग से।

शोधकर्ताओं में वाशू पीएच.डी. शामिल थे।छात्र निकोलस क्रिस्पिनो, काइल मोंटगोमरी, और अनुसंधान विश्लेषक फैंकुन ज़ेंग, जोअपना काम प्रस्तुत कियामशीन लर्निंग के लिए हाल ही में एक सम्मेलन में।काम भी हैउपलब्धपरarXivप्रीप्रिंट सर्वर.

क्रिस्पिनो ने कहा, यह "एजेंट" एक बड़ा एलएलएम है जो वेब से निर्देशों पर विचार करने के लिए एक उपकरण के रूप में कार्य करता है।बुनियादी कार्य जानकारी जैसे डेटासेट नाम और कुछ इनपुट-केवल उदाहरणों को देखते हुए, एजेंट कार्यों के लिए उच्च गुणवत्ता वाले चरण-दर-चरण निर्देश तैयार करता है।

वे निर्देश कुछ कार्यों पर छोटे एलएलएम के तर्क का मार्गदर्शन करते हैं।यह जेनरेटिव एआई करने का एक अधिक किफायती तरीका है क्योंकि उन्हें प्रति डेटा सेट में केवल एक बार बड़े एलएलएम का उपयोग करना होता है, फिर वे एक छोटे एलएलएम को निर्देश सौंपते हैं जो कार्यभार संभाल सकता है।

क्रिस्पिनो ने कहा, "हम एक बार महंगे मॉडल का उपयोग कर सकते हैं और सस्ते मॉडल की तर्क या सोच प्रक्रिया का मार्गदर्शन करने के लिए ये अच्छे निर्देश बना सकते हैं।"

मोंटगोमरी ने कहा, "हमारी पद्धति अत्याधुनिक बड़े भाषा मॉडल के प्रदर्शन को बड़े अंतर से बढ़ाती है।"

उन्होंने भाषा प्रसंस्करण कार्यों पर ज़ीरो-शॉट एजेंटइंस्ट्रक्ट नामक अपनी लागत प्रभावी विधि का परीक्षण किया और एलएलएम विकुना-13बी, लामा-2-70बी-चैट और जीपीटी-3.5 टर्बो का उपयोग करके इसके प्रदर्शन की तुलना शून्य-शॉट प्रॉम्प्टिंग विधियों से की।

"विचार की शून्य-शॉट श्रृंखला" प्रॉम्प्टिंग की तुलना में, जो "आइए कदम दर कदम सोचें" संकेत जोड़कर काम करता है, जीरो-शॉट एजेंटइंस्ट्रक्ट ने 29 डेटासेट (53 सबसेट सहित) पर मूल्यांकन किए गए विभिन्न कार्यों में बेहतर प्रदर्शन दिखाया।

वांग ने कहा, "सोच और तर्क में हमारा सुधार आश्चर्यजनक है, खासकर गणित और तर्क में।"

अनिवार्य रूप से, वे अन्य मॉडल के लिए चरण-दर-चरण तर्क पथों में कार्यों को वितरित करने के लिए शक्तिशाली एलएलएम मॉडल का उपयोग कर रहे हैं, जैसे एक अनुभवी शिक्षक छात्रों के साथ अपना ज्ञान साझा कर रहा है।

क्रिस्पिनो ने कहा, "हम देख रहे हैं कि बिना प्रशिक्षण के बड़े मॉडलों का उपयोग करके हम छोटे मॉडलों की तर्क क्षमताओं को कितना आगे बढ़ा सकते हैं।"

अधिक जानकारी:निकोलस क्रिस्पिनो एट अल, एजेंट बड़े भाषा मॉडलों को सामान्य शून्य-शॉट तर्ककर्ता बनने का निर्देश देता है,arXiv(2023)।डीओआई: 10.48550/arxiv.2310.03710

जर्नल जानकारी: arXiv

उद्धरण:भाषा एजेंट बड़े भाषा मॉडलों को बेहतर और सस्ता सोचने में मदद करते हैं (2024, 24 सितंबर)24 सितंबर 2024 को पुनः प्राप्तhttps://techxplore.com/news/2024-09-langage-agents-large-cheaper.html से

यह दस्तावेज कॉपीराइट के अधीन है।निजी अध्ययन या अनुसंधान के उद्देश्य से किसी भी निष्पक्ष व्यवहार के अलावा, नहींलिखित अनुमति के बिना भाग को पुन: प्रस्तुत किया जा सकता है।सामग्री केवल सूचना के प्रयोजनों के लिए प्रदान की गई है।

अन्य भाषा संस्करण भी देखें: English | 简中 | 正體 | 日本語 | 한국인 | हिंदी | Español