कैलिफ़ोर्निया विश्वविद्यालय में सॉफ़्टवेयर इंजीनियरों की एक टीम, सूचो विश्वविद्यालय के एक सहकर्मी और लक्सीटेक के एक अन्य सहकर्मी के साथ काम करते हुए, मैट्रिक्स गुणन का उपयोग किए बिना एआई भाषा मॉडल चलाने का एक तरीका विकसित किया है।टीम ने एक प्रकाशित किया हैकागज़परarXivप्रीप्रिंट सर्वर अपने नए दृष्टिकोण का वर्णन करता है और परीक्षण के दौरान इसने कितनी अच्छी तरह काम किया है।
जैसे-जैसे चैटजीपीटी जैसे एलएलएम की शक्ति बढ़ी है, वैसे-वैसे उनके लिए आवश्यक कंप्यूटिंग संसाधन भी बढ़े हैं।एलएलएम चलाने की प्रक्रिया के एक भाग में मैट्रिक्स गुणन (मैटमुल) करना शामिल है, जहांडेटाके साथ संयुक्त हैतौलमेंतंत्रिका - तंत्रप्रश्नों के संभावित सर्वोत्तम उत्तर प्रदान करने के लिए।
प्रारंभ में, एआई शोधकर्ताओं ने पाया कि ग्राफिक्स प्रोसेसिंग इकाइयां (जीपीयू) आदर्श रूप से तंत्रिका नेटवर्क अनुप्रयोगों के लिए उपयुक्त थीं क्योंकि वे एक साथ कई प्रक्रियाएं चला सकते हैं - इस मामले में, कई मैटमुल्स।लेकिन अब, GPU के विशाल समूहों के साथ भी, MatMuls बाधा बन गए हैं क्योंकि LLM की शक्ति उनका उपयोग करने वाले लोगों की संख्या के साथ बढ़ती है।
इस नए अध्ययन में, अनुसंधान टीम ने मैटमल्स को चलाने की आवश्यकता के बिना एआई भाषा मॉडल को चलाने और इसे कुशलतापूर्वक करने का एक तरीका विकसित करने का दावा किया है।
इस उपलब्धि को हासिल करने के लिए, अनुसंधान टीम ने डेटा को कैसे भारित किया जाए, इसके लिए एक नया दृष्टिकोण अपनाया - उन्होंने मौजूदा पद्धति को बदल दिया जो 16-बिट फ्लोटिंग पॉइंट्स पर निर्भर करती है जो केवल तीन का उपयोग करती है: {-1, 0, 1} नए के साथऐसे फ़ंक्शन जो पिछली विधि के समान ही प्रकार के ऑपरेशन करते हैं।
उन्होंने नई परिमाणीकरण तकनीकें भी विकसित कीं जिससे प्रदर्शन को बढ़ावा देने में मदद मिली।कम वजन के साथ, कम प्रसंस्करण की आवश्यकता होती है, जिसके परिणामस्वरूप कम कंप्यूटिंग शक्ति की आवश्यकता होती है।लेकिन उन्होंने पारंपरिक ट्रांसफार्मर ब्लॉकों के स्थान पर मैटमुल-मुक्त रैखिक गेटेड आवर्ती इकाई (एमएलजीआरयू) के रूप में वर्णित एलएलएम को संसाधित करने के तरीके को भी मौलिक रूप से बदल दिया।
अपने नए विचारों के परीक्षण में, शोधकर्ताओं ने पाया कि उनके नए दृष्टिकोण का उपयोग करने वाली एक प्रणाली ने ऐसा प्रदर्शन हासिल किया जो वर्तमान में उपयोग में आने वाली अत्याधुनिक प्रणालियों के बराबर था।साथ ही, उन्होंने पाया कि उनका सिस्टम आम तौर पर पारंपरिक प्रणालियों की तुलना में बहुत कम कंप्यूटिंग शक्ति और बिजली का उपयोग करता है।
अधिक जानकारी:रुई-जी झू एट अल, स्केलेबल मैटमुल-मुक्त भाषा मॉडलिंग,arXiv(2024)।डीओआई: 10.48550/arxiv.2406.02528
जर्नल जानकारी: arXiv
© 2024 साइंस एक्स नेटवर्क
उद्धरण:सॉफ्टवेयर इंजीनियरों ने मैट्रिक्स गुणन के बिना एआई भाषा मॉडल चलाने का एक तरीका विकसित किया (2024, 26 जून)26 जून 2024 को पुनः प्राप्तhttps://techxplore.com/news/2024-06-software-ai-भाषा-matrix-multiplication.html से
यह दस्तावेज कॉपीराइट के अधीन है।निजी अध्ययन या अनुसंधान के उद्देश्य से किसी भी निष्पक्ष व्यवहार के अलावा, नहींलिखित अनुमति के बिना भाग को पुन: प्रस्तुत किया जा सकता है।सामग्री केवल सूचना के प्रयोजनों के लिए प्रदान की गई है।