शोधकर्ताओं ने पाया है कि GPT-4 जैसे AI बड़े भाषा मॉडल, एक वाक्य में पहले आए वाक्य की तुलना में आगे क्या होगा इसकी भविष्यवाणी करने में बेहतर हैं।यह "समय का तीर" प्रभाव प्राकृतिक भाषा की संरचना के बारे में हमारी समझ और इन मॉडलों द्वारा इसे समझने के तरीके को नया आकार दे सकता है।
जीपीटी-4 जैसे बड़े भाषा मॉडल (एलएलएम) टेक्स्ट जेनरेशन, कोडिंग, चैटबॉट संचालित करने, अनुवाद और अन्य जैसे कार्यों के लिए अपरिहार्य हो गए हैं।अपने मूल में, एलएलएम पिछले शब्दों के आधार पर एक वाक्य में अगले शब्द की भविष्यवाणी करके काम करते हैं - एक सरल लेकिन शक्तिशाली विचार जो उनकी अधिकांश कार्यक्षमता को संचालित करता है।
लेकिन क्या होता है जब हम इन मॉडलों से "समय में पीछे" जाने और बाद वाले शब्दों से पिछले शब्द का निर्धारण करने के लिए पीछे की भविष्यवाणी करने के लिए कहते हैं?
इस सवाल ने ईपीएफएल में प्रोफेसर क्लेमेंट हॉन्गलर और गोल्डस्मिथ्स (लंदन) के जेरेमी वेंगर को यह पता लगाने के लिए प्रेरित किया कि क्या एलएलएम अंत से शुरू करके पीछे की कहानी बना सकते हैं।ईपीएफएल में मशीन लर्निंग शोधकर्ता वासिलिस पापाडोपोलोस के साथ काम करते हुए, उन्होंने कुछ आश्चर्यजनक पाया: एलएलएम आगे की तुलना में पीछे की भविष्यवाणी करते समय लगातार कम सटीक होते हैं।
एक मौलिक विषमता
शोधकर्ताओं ने विभिन्न आर्किटेक्चर और आकारों के एलएलएम का परीक्षण किया, जिसमें जेनरेटिव प्री-ट्रेंड ट्रांसफॉर्मर (जीपीटी), गेटेड रिकरंट यूनिट्स (जीआरयू), और लॉन्ग शॉर्ट-टर्म मेमोरी (एलएसटीएम) न्यूरल नेटवर्क शामिल हैं।उनमें से हर एक ने "समय का तीर" पूर्वाग्रह दिखाया, जिससे एलएलएम पाठ को संसाधित करने के तरीके में एक मौलिक विषमता का खुलासा हुआ।
हॉन्गलर बताते हैं, "खोज से पता चलता है कि एलएलएम किसी पाठ में अगले शब्द और पिछले शब्द दोनों की भविष्यवाणी करने में काफी अच्छे हैं, लेकिन वे हमेशा आगे की तुलना में पीछे की ओर थोड़ा खराब होते हैं: पिछले शब्द की भविष्यवाणी करने में उनका प्रदर्शन हमेशा कुछ प्रतिशत खराब होता हैअगले शब्द की भविष्यवाणी करने की तुलना में यह घटना सभी भाषाओं में सार्वभौमिक है, और इसे किसी भी बड़े भाषा मॉडल के साथ देखा जा सकता है।"
यह कार्य सूचना सिद्धांत के जनक क्लॉड शैनन के मौलिक कार्य से भी जुड़ा हुआ है1951 पेपर.शैनन ने पता लगाया कि क्या अनुक्रम में अगले अक्षर की भविष्यवाणी करना पिछले अक्षर की भविष्यवाणी करने जितना आसान है।उन्होंने पाया कि यद्यपि दोनों कार्य सैद्धांतिक रूप से समान रूप से कठिन होने चाहिए, मनुष्यों ने पिछड़ी भविष्यवाणी को अधिक चुनौतीपूर्ण पाया - हालांकि प्रदर्शन अंतर न्यूनतम था।
बुद्धिमान एजेंट
होंगलर कहते हैं, "सैद्धांतिक रूप से, आगे और पीछे की दिशाओं के बीच कोई अंतर नहीं होना चाहिए, लेकिन एलएलएम उस समय की दिशा के प्रति किसी तरह संवेदनशील प्रतीत होते हैं जिसमें वे पाठ को संसाधित करते हैं।""दिलचस्प बात यह है कि यह भाषा की संरचना की एक गहरी संपत्ति से संबंधित है जिसे केवल इसके उद्भव के साथ ही खोजा जा सकता हैबड़े भाषा मॉडलपिछले पांच वर्षों में।"
शोधकर्ता इस संपत्ति को जानकारी संसाधित करने वाले बुद्धिमान एजेंटों की उपस्थिति से जोड़ते हैं, जिसका अर्थ है कि इसका उपयोग बुद्धि या जीवन का पता लगाने के लिए एक उपकरण के रूप में किया जा सकता है, और अधिक शक्तिशाली एलएलएम डिजाइन करने में मदद कर सकता है।अंत में, यह भौतिकी में एक उभरती हुई घटना के रूप में समय बीतने को समझने की लंबे समय से चली आ रही खोज को नई दिशाएँ दिखा सकता है।
कामपर प्रकाशित किया गया हैarXivप्रीप्रिंट सर्वर.थिएटर से गणित तक
इस अध्ययन की अपने आप में एक दिलचस्प पृष्ठभूमि है, जिसे हॉन्गलर बताते हैं।
"2020 में, जेरेमी [वेंगर] के साथ, हम एक चैटबॉट बनाने के लिए द मैन्युफैक्चर थिएटर स्कूल के साथ सहयोग कर रहे थे, जो अभिनेताओं के साथ मिलकर कामचलाऊ काम करेगा; इम्प्रोव में, आप अक्सर यह जानते हुए भी कहानी जारी रखना चाहते हैं कि क्या हैअंत जैसा दिखना चाहिए.
"एक विशिष्ट तरीके से समाप्त होने वाली कहानियां बनाने के लिए, हमें चैटबॉट को 'पीछे की ओर' बोलने के लिए प्रशिक्षित करने का विचार आया, जिससे यह अपने अंत को देखते हुए एक कहानी उत्पन्न कर सके, उदाहरण के लिए, यदि अंत 'वे हमेशा खुशी से रहते थे'बाद में,' मॉडल आपको बता सकता है कि यह कैसे हुआ, इसलिए, हमने मॉडलों को ऐसा करने के लिए प्रशिक्षित किया, और देखा कि वे आगे की तुलना में पीछे की ओर थोड़े खराब थे।
"वासिलिस [पापाडोपोलोस] के साथ, हमें बाद में एहसास हुआ कि यह भाषा की एक गहन विशेषता थी, और यह एक पूरी तरह से सामान्य नई घटना थी, जिसका समय बीतने, बुद्धि और कार्य-कारण की धारणा के साथ गहरा संबंध है। के लिए काफी अच्छा हैकुछ थिएटर प्रोजेक्ट।"
इस काम के प्रति हॉन्गलर का उत्साह काफी हद तक रास्ते में आए अप्रत्याशित आश्चर्यों से उपजा है।"केवलसमययह बता सकता है कि एक थिएटर प्रोजेक्ट के रूप में शुरू हुई कोई चीज़ हमें दुनिया के बारे में बहुत सी चीज़ों को समझने के लिए नए उपकरण प्रदान करेगी।"
अधिक जानकारी:वासिलिस पापाडोपोलोस एट अल, बड़े भाषा मॉडल के लिए समय के तीर,arXiv(2024)।डीओआई: 10.48550/arxiv.2401.17505
जर्नल जानकारी: arXiv
उद्धरण:'समय का तीर' प्रभाव: एलएलएम पहले की तुलना में आगे क्या होगा इसकी भविष्यवाणी करने में बेहतर हैं (2024, 16 सितंबर)16 सितंबर 2024 को पुनः प्राप्तhttps://techxplore.com/news/2024-09-arrow-effect-llms.html से
यह दस्तावेज कॉपीराइट के अधीन है।निजी अध्ययन या अनुसंधान के उद्देश्य से किसी भी निष्पक्ष व्यवहार के अलावा, नहींलिखित अनुमति के बिना भाग को पुन: प्रस्तुत किया जा सकता है।सामग्री केवल सूचना के प्रयोजनों के लिए प्रदान की गई है।