Combining next-token prediction and video diffusion in computer vision and robotics
श्रेय: मैसाचुसेट्स इंस्टीट्यूट ऑफ टेक्नोलॉजी

वर्तमान एआई युगीन युग में, अनुक्रम मॉडल डेटा का विश्लेषण करने और आगे क्या करना है इसकी भविष्यवाणी करने की क्षमता के कारण लोकप्रियता में आसमान छू रहे हैं।उदाहरण के लिए, आपने संभवतः चैटजीपीटी जैसे नेक्स्ट-टोकन भविष्यवाणी मॉडल का उपयोग किया होगा, जो उपयोगकर्ताओं के प्रश्नों के उत्तर बनाने के लिए प्रत्येक शब्द (टोकन) का एक क्रम में अनुमान लगाता है।सोरा जैसे पूर्ण-अनुक्रम प्रसार मॉडल भी हैं, जो संपूर्ण वीडियो अनुक्रम को क्रमिक रूप से "निरूपित" करके शब्दों को चमकदार, यथार्थवादी दृश्यों में परिवर्तित करते हैं।

एमआईटी के कंप्यूटर साइंस और आर्टिफिशियल इंटेलिजेंस लेबोरेटरी (सीएसएआईएल) के शोधकर्ताओं ने प्रसार प्रशिक्षण योजना में एक सरल बदलाव का प्रस्ताव दिया है जो इस अनुक्रम को काफी अधिक लचीला बनाता है।

जब कंप्यूटर विज़न और रोबोटिक्स जैसे क्षेत्रों में लागू किया जाता है, तो अगले-टोकन और पूर्ण-अनुक्रम प्रसार मॉडल में क्षमता व्यापार-बंद होते हैं।नेक्स्ट-टोकन मॉडल उन अनुक्रमों को उगल सकते हैं जो लंबाई में भिन्न होते हैं।

हालाँकि, वे सुदूर भविष्य में वांछनीय स्थितियों से अनभिज्ञ रहते हुए इन पीढ़ियों का निर्माण करते हैं - जैसे कि इसके अनुक्रम पीढ़ी को 10 टोकन दूर एक निश्चित लक्ष्य की ओर ले जाना - और इस प्रकार दीर्घकालिक (दीर्घकालिक) योजना के लिए अतिरिक्त तंत्र की आवश्यकता होती है।प्रसार मॉडल ऐसे भविष्य-वातानुकूलित नमूनाकरण कर सकते हैं, लेकिन चर-लंबाई अनुक्रम उत्पन्न करने के लिए अगले-टोकन मॉडल की क्षमता का अभाव है।

CSAIL के शोधकर्ता दोनों मॉडलों की शक्तियों को संयोजित करना चाहते हैं, इसलिए उन्होंने "डिफ्यूजन फोर्सिंग" नामक एक अनुक्रम मॉडल प्रशिक्षण तकनीक बनाई।यह नाम "टीचर फोर्सिंग" से आया है, पारंपरिक प्रशिक्षण योजना जो पूर्ण अनुक्रम पीढ़ी को अगली-टोकन पीढ़ी के छोटे, आसान चरणों में तोड़ देती है (एक अच्छे शिक्षक की तरह एक जटिल अवधारणा को सरल बनाना)।

श्रेय: मैसाचुसेट्स इंस्टीट्यूट ऑफ टेक्नोलॉजी

डिफ्यूजन फोर्सिंग ने डिफ्यूजन मॉडल और शिक्षक फोर्सिंग के बीच सामान्य आधार पाया: वे दोनों प्रशिक्षण योजनाओं का उपयोग करते हैं जिसमें नकाबपोश (शोर) टोकन और नकाबपोश टोकन की भविष्यवाणी करना शामिल है।प्रसार मॉडल के मामले में, वे धीरे-धीरे डेटा में शोर जोड़ते हैं, जिसे आंशिक मास्किंग के रूप में देखा जा सकता है।

एमआईटी शोधकर्ताओं की डिफ्यूजन फोर्सिंग विधि तंत्रिका नेटवर्क को टोकन के संग्रह को साफ करने के लिए प्रशिक्षित करती है, साथ ही साथ अगले कुछ टोकन की भविष्यवाणी करते हुए प्रत्येक के भीतर अलग-अलग मात्रा में शोर को हटाती है।परिणाम: एक लचीला, विश्वसनीय अनुक्रम मॉडल जिसके परिणामस्वरूप उच्च गुणवत्ता वाले कृत्रिम वीडियो और रोबोट और एआई एजेंटों के लिए अधिक सटीक निर्णय लेना संभव हुआ।

शोर वाले डेटा को क्रमबद्ध करके और किसी कार्य में अगले चरणों की विश्वसनीय भविष्यवाणी करके, डिफ्यूजन फोर्सिंग हेरफेर कार्यों को पूरा करने के लिए दृश्य विकर्षणों को अनदेखा करने में रोबोट की सहायता कर सकता है।यह स्थिर और सुसंगत भी उत्पन्न कर सकता हैअनुक्रम और यहां तक ​​कि डिजिटल भूलभुलैया के माध्यम से एक एआई एजेंट का मार्गदर्शन भी कर सकते हैं।

यह विधि संभावित रूप से घरेलू और फैक्ट्री रोबोटों को नए कार्यों को सामान्य बनाने और एआई-जनित मनोरंजन में सुधार करने में सक्षम बना सकती है।

एमआईटी के प्रमुख लेखक कहते हैं, "अनुक्रम मॉडल का लक्ष्य ज्ञात अतीत पर स्थिति बनाना और अज्ञात भविष्य की भविष्यवाणी करना है, जो एक प्रकार की बाइनरी मास्किंग है। हालांकि, मास्किंग को बाइनरी होने की आवश्यकता नहीं है।"और कंप्यूटर विज्ञान (ईईसीएस) पीएच.डी.छात्र, और CSAIL सदस्य बोयुआन चेन।

"डिफ्यूजन फोर्सिंग के साथ, हम प्रत्येक टोकन में अलग-अलग स्तर का शोर जोड़ते हैं, जो प्रभावी रूप से एक प्रकार के भिन्नात्मक मास्किंग के रूप में काम करता है। परीक्षण के समय, हमारा सिस्टम टोकन के संग्रह को 'अनमास्क' कर सकता है और निकट भविष्य में कम शोर पर एक अनुक्रम फैला सकता है।स्तर। यह जानता है कि आउट-ऑफ-डिस्ट्रीब्यूशन इनपुट पर काबू पाने के लिए अपने डेटा पर किस पर भरोसा करना है।"

कई प्रयोगों में, डिफ्यूजन फोर्सिंग ने भविष्य की कार्रवाइयों की आशा करते हुए कार्यों को निष्पादित करने के लिए भ्रामक डेटा को अनदेखा करने में सफलता हासिल की।

जब ए में लागू किया गयाउदाहरण के लिए, इसने दो खिलौनों के फलों को तीन गोलाकार चटाइयों में बदलने में मदद की, जो लंबे-क्षितिज वाले कार्यों के परिवार का एक न्यूनतम उदाहरण है जिसमें यादों की आवश्यकता होती है।शोधकर्ताओं ने रोबोट को आभासी वास्तविकता में दूर से नियंत्रित करके (या टेलीऑपरेट करके) प्रशिक्षित किया।

रोबोट को अपने कैमरे से उपयोगकर्ता की गतिविधियों की नकल करने के लिए प्रशिक्षित किया गया है।यादृच्छिक स्थितियों से शुरू करने और मार्करों को अवरुद्ध करने वाले शॉपिंग बैग जैसी विकर्षणों को देखने के बावजूद, इसने वस्तुओं को अपने लक्षित स्थानों पर रखा।

वीडियो बनाने के लिए, उन्होंने "माइनक्राफ्ट" गेम खेलने और Google के डीपमाइंड लैब सिम्युलेटर के भीतर बनाए गए रंगीन डिजिटल वातावरण पर डिफ्यूजन फोर्सिंग का प्रशिक्षण लिया।जब फुटेज का एक फ्रेम दिया गया, तो विधि ने सोरा-जैसे पूर्ण-अनुक्रम जैसे तुलनीय बेसलाइन की तुलना में अधिक स्थिर, उच्च-रिज़ॉल्यूशन वाले वीडियो तैयार किए।मॉडल और चैटजीपीटी-जैसे अगले-टोकन मॉडल।

इन तरीकों से ऐसे वीडियो बनाए गए जो असंगत दिखाई दिए, बाद वाले कभी-कभी केवल 72 फ़्रेमों के बाद कार्यशील वीडियो उत्पन्न करने में विफल रहे।

डिफ्यूज़न फ़ोर्सिंग न केवल फैंसी वीडियो उत्पन्न करता है, बल्कि एक मोशन प्लानर के रूप में भी काम कर सकता है जो वांछित परिणामों या पुरस्कारों की ओर ले जाता है।अपने लचीलेपन के कारण, डिफ्यूजन फोर्सिंग अलग-अलग क्षितिज के साथ विशिष्ट रूप से योजनाएं तैयार कर सकती है, वृक्ष खोज कर सकती है, और इस अंतर्ज्ञान को शामिल कर सकती है कि दूर का भविष्य निकट भविष्य की तुलना में अधिक अनिश्चित है।

2डी भूलभुलैया को सुलझाने के कार्य में, डिफ्यूजन फोर्सिंग ने लक्ष्य स्थान तक पहुंचने वाली तेज योजनाएं तैयार करके छह बेसलाइनों से बेहतर प्रदर्शन किया, जो दर्शाता है कि यह भविष्य में रोबोट के लिए एक प्रभावी योजनाकार हो सकता है।

प्रत्येक डेमो में, डिफ्यूजन फोर्सिंग ने एक पूर्ण अनुक्रम मॉडल, एक अगले-टोकन भविष्यवाणी मॉडल या दोनों के रूप में कार्य किया।चेन के अनुसार, यह बहुमुखी दृष्टिकोण संभावित रूप से "विश्व मॉडल" के लिए एक शक्तिशाली रीढ़ के रूप में काम कर सकता है, एक एआई प्रणाली जो अरबों इंटरनेट वीडियो पर प्रशिक्षण देकर दुनिया की गतिशीलता का अनुकरण कर सकती है।

इससे रोबोटों को अपने परिवेश के आधार पर यह कल्पना करके नए कार्य करने की अनुमति मिलेगी कि उन्हें क्या करने की आवश्यकता है।उदाहरण के लिए, यदि आपने किसी रोबोट को दरवाजा खोलने के लिए बिना प्रशिक्षित किए कहा कि यह कैसे करना है, तो मॉडल एक वीडियो तैयार कर सकता है जो मशीन को दिखाएगा कि यह कैसे करना है।

टीम वर्तमान में प्रदर्शन को बेहतर बनाने के लिए अपनी पद्धति को बड़े डेटासेट और नवीनतम ट्रांसफार्मर मॉडल तक बढ़ाने पर विचार कर रही है।वे चैटजीपीटी जैसा रोबोट मस्तिष्क बनाने के लिए अपने काम का विस्तार करने का इरादा रखते हैं जो रोबोटों को मानव प्रदर्शन के बिना नए वातावरण में कार्य करने में मदद करता है।

"डिफ्यूजन फोर्सिंग के साथ, हम वीडियो जेनरेशन और रोबोटिक्स को एक साथ लाने के लिए एक कदम उठा रहे हैं," एमआईटी के सहायक प्रोफेसर और सीएसएआईएल के सदस्य, वरिष्ठ लेखक विंसेंट सिट्ज़मैन कहते हैं, जहां वह दृश्य प्रतिनिधित्व समूह का नेतृत्व करते हैं।

"अंत में, हमें उम्मीद है कि हम इंटरनेट पर वीडियो में संग्रहीत सभी ज्ञान का उपयोग रोबोट को रोजमर्रा की जिंदगी में मदद करने में सक्षम बनाने के लिए कर सकते हैं। कई और रोमांचक शोध चुनौतियां बनी हुई हैं, जैसे कि रोबोट इंसानों को देखकर उनकी नकल करना कैसे सीख सकते हैं, भले ही उनकीहमारे अपने शरीर हमारे अपने शरीर से बहुत अलग हैं।"

टीम यहां अपना शोध प्रस्तुत करेगीन्यूरिप्सदिसंबर में, और उनका पेपर हैउपलब्धपरarXivप्रीप्रिंट सर्वर.

अधिक जानकारी:बोयुआन चेन एट अल, डिफ्यूजन फोर्सिंग: नेक्स्ट-टोकन प्रेडिक्शन मीट्स फुल-सीक्वेंस डिफ्यूजन,arXiv(2024)।डीओआई: 10.48550/arxiv.2407.01392

जर्नल जानकारी: arXiv

उद्धरण:कंप्यूटर विज़न और रोबोटिक्स में नेक्स्ट-टोकन भविष्यवाणी और वीडियो प्रसार का संयोजन (2024, 17 अक्टूबर)17 अक्टूबर 2024 को पुनः प्राप्तhttps://techxplore.com/news/2024-10-combining-token-video-dif Fusion-vision.html से

यह दस्तावेज कॉपीराइट के अधीन है।निजी अध्ययन या अनुसंधान के उद्देश्य से किसी भी निष्पक्ष व्यवहार के अलावा, नहींलिखित अनुमति के बिना भाग को पुन: प्रस्तुत किया जा सकता है।सामग्री केवल सूचना के प्रयोजनों के लिए प्रदान की गई है।