Large language models are better at predicting what comes next than what came before, grammatically
प्रशिक्षण के दौरान एफडब्ल्यू और बीडब्ल्यू मॉडल के लिए सत्यापन हानि वक्र।लगातार, BW हानि इसके FW समकक्ष से अधिक है।यह सीखने की दर के गर्म पुनरारंभ के माध्यम से जारी रहता है, जिससे नुकसान में उछाल आता है।श्रेय:arXiv(2024)।डीओआई: 10.48550/arxiv.2401.17505

शोधकर्ताओं ने पाया है कि GPT-4 जैसे AI बड़े भाषा मॉडल, एक वाक्य में पहले आए वाक्य की तुलना में आगे क्या होगा इसकी भविष्यवाणी करने में बेहतर हैं।यह "समय का तीर" प्रभाव प्राकृतिक भाषा की संरचना के बारे में हमारी समझ और इन मॉडलों द्वारा इसे समझने के तरीके को नया आकार दे सकता है।

जीपीटी-4 जैसे बड़े भाषा मॉडल (एलएलएम) टेक्स्ट जेनरेशन, कोडिंग, चैटबॉट संचालित करने, अनुवाद और अन्य जैसे कार्यों के लिए अपरिहार्य हो गए हैं।अपने मूल में, एलएलएम पिछले शब्दों के आधार पर एक वाक्य में अगले शब्द की भविष्यवाणी करके काम करते हैं - एक सरल लेकिन शक्तिशाली विचार जो उनकी अधिकांश कार्यक्षमता को संचालित करता है।

लेकिन क्या होता है जब हम इन मॉडलों से "समय में पीछे" जाने और बाद वाले शब्दों से पिछले शब्द का निर्धारण करने के लिए पीछे की भविष्यवाणी करने के लिए कहते हैं?

इस सवाल ने ईपीएफएल में प्रोफेसर क्लेमेंट हॉन्गलर और गोल्डस्मिथ्स (लंदन) के जेरेमी वेंगर को यह पता लगाने के लिए प्रेरित किया कि क्या एलएलएम अंत से शुरू करके पीछे की कहानी बना सकते हैं।ईपीएफएल में मशीन लर्निंग शोधकर्ता वासिलिस पापाडोपोलोस के साथ काम करते हुए, उन्होंने कुछ आश्चर्यजनक पाया: एलएलएम आगे की तुलना में पीछे की भविष्यवाणी करते समय लगातार कम सटीक होते हैं।

एक मौलिक विषमता

शोधकर्ताओं ने विभिन्न आर्किटेक्चर और आकारों के एलएलएम का परीक्षण किया, जिसमें जेनरेटिव प्री-ट्रेंड ट्रांसफॉर्मर (जीपीटी), गेटेड रिकरंट यूनिट्स (जीआरयू), और लॉन्ग शॉर्ट-टर्म मेमोरी (एलएसटीएम) न्यूरल नेटवर्क शामिल हैं।उनमें से हर एक ने "समय का तीर" पूर्वाग्रह दिखाया, जिससे एलएलएम पाठ को संसाधित करने के तरीके में एक मौलिक विषमता का खुलासा हुआ।

हॉन्गलर बताते हैं, "खोज से पता चलता है कि एलएलएम किसी पाठ में अगले शब्द और पिछले शब्द दोनों की भविष्यवाणी करने में काफी अच्छे हैं, लेकिन वे हमेशा आगे की तुलना में पीछे की ओर थोड़ा खराब होते हैं: पिछले शब्द की भविष्यवाणी करने में उनका प्रदर्शन हमेशा कुछ प्रतिशत खराब होता हैअगले शब्द की भविष्यवाणी करने की तुलना में यह घटना सभी भाषाओं में सार्वभौमिक है, और इसे किसी भी बड़े भाषा मॉडल के साथ देखा जा सकता है।"

यह कार्य सूचना सिद्धांत के जनक क्लॉड शैनन के मौलिक कार्य से भी जुड़ा हुआ है1951 पेपर.शैनन ने पता लगाया कि क्या अनुक्रम में अगले अक्षर की भविष्यवाणी करना पिछले अक्षर की भविष्यवाणी करने जितना आसान है।उन्होंने पाया कि यद्यपि दोनों कार्य सैद्धांतिक रूप से समान रूप से कठिन होने चाहिए, मनुष्यों ने पिछड़ी भविष्यवाणी को अधिक चुनौतीपूर्ण पाया - हालांकि प्रदर्शन अंतर न्यूनतम था।

बुद्धिमान एजेंट

होंगलर कहते हैं, "सैद्धांतिक रूप से, आगे और पीछे की दिशाओं के बीच कोई अंतर नहीं होना चाहिए, लेकिन एलएलएम उस समय की दिशा के प्रति किसी तरह संवेदनशील प्रतीत होते हैं जिसमें वे पाठ को संसाधित करते हैं।""दिलचस्प बात यह है कि यह भाषा की संरचना की एक गहरी संपत्ति से संबंधित है जिसे केवल इसके उद्भव के साथ ही खोजा जा सकता हैपिछले पांच वर्षों में।"

शोधकर्ता इस संपत्ति को जानकारी संसाधित करने वाले बुद्धिमान एजेंटों की उपस्थिति से जोड़ते हैं, जिसका अर्थ है कि इसका उपयोग बुद्धि या जीवन का पता लगाने के लिए एक उपकरण के रूप में किया जा सकता है, और अधिक शक्तिशाली एलएलएम डिजाइन करने में मदद कर सकता है।अंत में, यह भौतिकी में एक उभरती हुई घटना के रूप में समय बीतने को समझने की लंबे समय से चली आ रही खोज को नई दिशाएँ दिखा सकता है।

कामपर प्रकाशित किया गया हैarXivप्रीप्रिंट सर्वर.थिएटर से गणित तक

इस अध्ययन की अपने आप में एक दिलचस्प पृष्ठभूमि है, जिसे हॉन्गलर बताते हैं।

"2020 में, जेरेमी [वेंगर] के साथ, हम एक चैटबॉट बनाने के लिए द मैन्युफैक्चर थिएटर स्कूल के साथ सहयोग कर रहे थे, जो अभिनेताओं के साथ मिलकर कामचलाऊ काम करेगा; इम्प्रोव में, आप अक्सर यह जानते हुए भी कहानी जारी रखना चाहते हैं कि क्या हैअंत जैसा दिखना चाहिए.

"एक विशिष्ट तरीके से समाप्त होने वाली कहानियां बनाने के लिए, हमें चैटबॉट को 'पीछे की ओर' बोलने के लिए प्रशिक्षित करने का विचार आया, जिससे यह अपने अंत को देखते हुए एक कहानी उत्पन्न कर सके, उदाहरण के लिए, यदि अंत 'वे हमेशा खुशी से रहते थे'बाद में,' मॉडल आपको बता सकता है कि यह कैसे हुआ, इसलिए, हमने मॉडलों को ऐसा करने के लिए प्रशिक्षित किया, और देखा कि वे आगे की तुलना में पीछे की ओर थोड़े खराब थे।

"वासिलिस [पापाडोपोलोस] के साथ, हमें बाद में एहसास हुआ कि यह भाषा की एक गहन विशेषता थी, और यह एक पूरी तरह से सामान्य नई घटना थी, जिसका समय बीतने, बुद्धि और कार्य-कारण की धारणा के साथ गहरा संबंध है। के लिए काफी अच्छा हैकुछ थिएटर प्रोजेक्ट।"

इस काम के प्रति हॉन्गलर का उत्साह काफी हद तक रास्ते में आए अप्रत्याशित आश्चर्यों से उपजा है।"केवलयह बता सकता है कि एक थिएटर प्रोजेक्ट के रूप में शुरू हुई कोई चीज़ हमें दुनिया के बारे में बहुत सी चीज़ों को समझने के लिए नए उपकरण प्रदान करेगी।"

अधिक जानकारी:वासिलिस पापाडोपोलोस एट अल, बड़े भाषा मॉडल के लिए समय के तीर,arXiv(2024)।डीओआई: 10.48550/arxiv.2401.17505

जर्नल जानकारी: arXiv

उद्धरण:'समय का तीर' प्रभाव: एलएलएम पहले की तुलना में आगे क्या होगा इसकी भविष्यवाणी करने में बेहतर हैं (2024, 16 सितंबर)16 सितंबर 2024 को पुनः प्राप्तhttps://techxplore.com/news/2024-09-arrow-effect-llms.html से

यह दस्तावेज कॉपीराइट के अधीन है।निजी अध्ययन या अनुसंधान के उद्देश्य से किसी भी निष्पक्ष व्यवहार के अलावा, नहींलिखित अनुमति के बिना भाग को पुन: प्रस्तुत किया जा सकता है।सामग्री केवल सूचना के प्रयोजनों के लिए प्रदान की गई है।