Language agents help large language models 'think' better and cheaper
वर्गीकरण डेटासेट IMDB के लिए कार्य-विशिष्ट निर्देश (हाइलाइट किए गए) तैयार करने वाले एजेंट का एक उदाहरण।निर्देश तैयार करने के लिए एजेंट केवल एक बार चलता है।फिर, तर्क के दौरान हमारे सभी मॉडलों के लिए निर्देशों का उपयोग किया जाता है।श्रेय:arXiv(2023)।डीओआई: 10.48550/arxiv.2310.03710

बड़े भाषा मॉडल जिन्होंने तकनीकी दुनिया पर तेजी से कब्ज़ा कर लिया है, कई मायनों में "सस्ते" नहीं हैं।सबसे प्रमुख एलएलएम, जैसे कि जीपीटी-4, को बनाने में प्रशिक्षण डेटा तक पहुंचने की कानूनी लागत, अरबों या खरबों मापदंडों के लिए कम्प्यूटेशनल बिजली की लागत, ईंधन गणना के लिए आवश्यक ऊर्जा और पानी के रूप में लगभग 100 मिलियन डॉलर लगे।और कई कोडर प्रशिक्षण एल्गोरिदम विकसित कर रहे हैं जिन्हें चक्र दर चक्र चलना चाहिए ताकि मशीन "सीख सके।"

लेकिन, यदि किसी शोधकर्ता को कोई विशेष कार्य करने की आवश्यकता है जिसे एक मशीन अधिक कुशलता से कर सकती है और उनके पास किसी बड़े संस्थान तक पहुंच नहीं है जो जेनरेटिव एआई टूल तक पहुंच प्रदान करता है, तो अन्य विकल्प क्या उपलब्ध हैं?मान लीजिए, एक माता-पिता अपने बच्चे को एक कठिन परीक्षा के लिए तैयार करना चाहते हैं और उन्हें जटिल गणित समस्याओं को हल करने के कई उदाहरण दिखाने की ज़रूरत है।

अपना स्वयं का एलएलएम बनाना ऊपर उल्लिखित लागतों के लिए एक कठिन संभावना है, और जीपीटी-4 और लामा 3.1 जैसे बड़े मॉडलों का प्रत्यक्ष उपयोग करना तुरंत कॉम्प्लेक्स के लिए उपयुक्त नहीं हो सकता है।तर्क और गणित में उनके कार्य की आवश्यकता होती है।

इससे मदद मिलेगी यदि जनता के लिए एक बड़े भाषा मॉडल विचारक का अधिक लागत प्रभावी संस्करण, जेनेरिक एआई के लिए एक सामान्य ब्रांड उपलब्ध हो।

सेंट लुइस में वाशिंगटन विश्वविद्यालय के शोधकर्ताओं ने तर्क प्रक्रिया को निर्देशित करने के लिए एक स्वायत्त एजेंट का निर्माण करके इस चुनौती से निपटने का फैसला किया.कंप्यूटर विज्ञान और इंजीनियरिंग में सहायक प्रोफेसर चेंगुआंग वांग की प्रयोगशाला के शोध के अनुसार, यह एजेंट प्रत्येक कार्य के लिए निर्देशों का एक सेट तैयार करता है और वे निर्देश सभी कार्य उदाहरणों में विभिन्न एलएलएम की तर्क प्रक्रिया में सुधार के लिए बेहद प्रभावी साबित होते हैं।, यूनिवर्सिटी कैलिफ़ोर्निया, बर्कले के प्रोफेसर डॉन सॉन्ग के सहयोग से।

शोधकर्ताओं में वाशू पीएच.डी. शामिल थे।छात्र निकोलस क्रिस्पिनो, काइल मोंटगोमरी, और अनुसंधान विश्लेषक फैंकुन ज़ेंग, जोअपना काम प्रस्तुत कियामशीन लर्निंग के लिए हाल ही में एक सम्मेलन में।काम भी हैउपलब्धपरarXivप्रीप्रिंट सर्वर.

क्रिस्पिनो ने कहा, यह "एजेंट" एक बड़ा एलएलएम है जो वेब से निर्देशों पर विचार करने के लिए एक उपकरण के रूप में कार्य करता है।बुनियादी कार्य जानकारी जैसे डेटासेट नाम और कुछ इनपुट-केवल उदाहरणों को देखते हुए, एजेंट कार्यों के लिए उच्च गुणवत्ता वाले चरण-दर-चरण निर्देश तैयार करता है।

वे निर्देश कुछ कार्यों पर छोटे एलएलएम के तर्क का मार्गदर्शन करते हैं।यह जेनरेटिव एआई करने का एक अधिक किफायती तरीका है क्योंकि उन्हें प्रति डेटा सेट में केवल एक बार बड़े एलएलएम का उपयोग करना होता है, फिर वे एक छोटे एलएलएम को निर्देश सौंपते हैं जो कार्यभार संभाल सकता है।

क्रिस्पिनो ने कहा, "हम एक बार महंगे मॉडल का उपयोग कर सकते हैं और सस्ते मॉडल की तर्क या सोच प्रक्रिया का मार्गदर्शन करने के लिए ये अच्छे निर्देश बना सकते हैं।"

मोंटगोमरी ने कहा, "हमारी पद्धति अत्याधुनिक बड़े भाषा मॉडल के प्रदर्शन को बड़े अंतर से बढ़ाती है।"

उन्होंने भाषा प्रसंस्करण कार्यों पर ज़ीरो-शॉट एजेंटइंस्ट्रक्ट नामक अपनी लागत प्रभावी विधि का परीक्षण किया और एलएलएम विकुना-13बी, लामा-2-70बी-चैट और जीपीटी-3.5 टर्बो का उपयोग करके इसके प्रदर्शन की तुलना शून्य-शॉट प्रॉम्प्टिंग विधियों से की।

"विचार की शून्य-शॉट श्रृंखला" प्रॉम्प्टिंग की तुलना में, जो "आइए कदम दर कदम सोचें" संकेत जोड़कर काम करता है, जीरो-शॉट एजेंटइंस्ट्रक्ट ने 29 डेटासेट (53 सबसेट सहित) पर मूल्यांकन किए गए विभिन्न कार्यों में बेहतर प्रदर्शन दिखाया।

वांग ने कहा, "सोच और तर्क में हमारा सुधार आश्चर्यजनक है, खासकर गणित और तर्क में।"

अनिवार्य रूप से, वे अन्य मॉडल के लिए चरण-दर-चरण तर्क पथों में कार्यों को वितरित करने के लिए शक्तिशाली एलएलएम मॉडल का उपयोग कर रहे हैं, जैसे एक अनुभवी शिक्षक छात्रों के साथ अपना ज्ञान साझा कर रहा है।

क्रिस्पिनो ने कहा, "हम देख रहे हैं कि बिना प्रशिक्षण के बड़े मॉडलों का उपयोग करके हम छोटे मॉडलों की तर्क क्षमताओं को कितना आगे बढ़ा सकते हैं।"

अधिक जानकारी:निकोलस क्रिस्पिनो एट अल, एजेंट बड़े भाषा मॉडलों को सामान्य शून्य-शॉट तर्ककर्ता बनने का निर्देश देता है,arXiv(2023)।डीओआई: 10.48550/arxiv.2310.03710

जर्नल जानकारी: arXiv

उद्धरण:भाषा एजेंट बड़े भाषा मॉडलों को बेहतर और सस्ता सोचने में मदद करते हैं (2024, 24 सितंबर)24 सितंबर 2024 को पुनः प्राप्तhttps://techxplore.com/news/2024-09-langage-agents-large-cheaper.html से

यह दस्तावेज कॉपीराइट के अधीन है।निजी अध्ययन या अनुसंधान के उद्देश्य से किसी भी निष्पक्ष व्यवहार के अलावा, नहींलिखित अनुमति के बिना भाग को पुन: प्रस्तुत किया जा सकता है।सामग्री केवल सूचना के प्रयोजनों के लिए प्रदान की गई है।