Helping robots zero in on the objects that matter
एमआईटी का क्लियो रोबोट के परिवेश में कार्य-प्रासंगिक वस्तुओं को मैप करने के लिए वास्तविक समय में चलता है, जिससे बॉट (बोस्टन डायनेमिक का चौगुना रोबोट स्पॉट, चित्रित) एक प्राकृतिक भाषा कार्य ("नारंगी बैकपैक उठाओ") को पूरा करने की अनुमति देता है।श्रेय: मैसाचुसेट्स इंस्टीट्यूट ऑफ टेक्नोलॉजी

कल्पना कीजिए कि आपको सॉस पैकेटों से अटे पड़े काउंटर से शुरुआत करते हुए, एक अस्त-व्यस्त रसोई को सीधा करना होगा।यदि आपका लक्ष्य काउंटर को साफ़ करना है, तो आप एक समूह के रूप में पैकेट साफ़ कर सकते हैं।हालाँकि, यदि आप बाकी को फेंकने से पहले सरसों के पैकेटों को चुनना चाहते हैं, तो आप सॉस के प्रकार के आधार पर अधिक भेदभावपूर्ण तरीके से वर्गीकरण करेंगे।और यदि, सरसों के बीच, आपको ग्रे पौपॉन के लिए लालसा थी, तो इस विशिष्ट ब्रांड को खोजने के लिए अधिक सावधानीपूर्वक खोज की आवश्यकता होगी।

एमआईटी इंजीनियरों ने एक ऐसी विधि विकसित की है जो रोबोटों को समान रूप से सहज, कार्य-प्रासंगिक निर्णय लेने में सक्षम बनाती है।

टीम का नया दृष्टिकोण, जिसका नाम क्लियो है, सक्षम बनाता हैa के भागों की पहचान करनायह मामला है, हाथ में कार्यों को देखते हुए।क्लियो के साथ, एक रोबोट वर्णित कार्यों की एक सूची लेता हैऔर, उन कार्यों के आधार पर, यह अपने परिवेश की व्याख्या करने के लिए आवश्यक ग्रैन्युलैरिटी के स्तर को निर्धारित करता है और किसी दृश्य के केवल उन हिस्सों को "याद" रखता है जो प्रासंगिक हैं।

एमआईटी के परिसर में एक अव्यवस्थित कक्ष से लेकर पांच मंजिला इमारत तक के वास्तविक प्रयोगों में, टीम ने "मूव रैक" जैसे प्राकृतिक-भाषा संकेतों में निर्दिष्ट कार्यों के एक सेट के आधार पर, ग्रैन्युलैरिटी के विभिन्न स्तरों पर एक दृश्य को स्वचालित रूप से विभाजित करने के लिए क्लियो का उपयोग किया।पत्रिकाओं का" और "प्राथमिक चिकित्सा किट प्राप्त करें।"

टीम ने क्लियो को भी दौड़ा लियाएक चौपाये रोबोट पर.जैसे ही रोबोट ने एक कार्यालय भवन की खोज की, क्लियो ने दृश्य के केवल उन हिस्सों की पहचान की और उनका मानचित्रण किया जो रोबोट के कार्यों से संबंधित थे (जैसे कि कार्यालय की आपूर्ति के ढेर को नजरअंदाज करते हुए कुत्ते का खिलौना प्राप्त करना), जिससे रोबोट को रुचि की वस्तुओं को पकड़ने की अनुमति मिली।

क्लियो का नाम इतिहास के ग्रीक संग्रहालय के नाम पर रखा गया है, जो किसी दिए गए कार्य के लिए केवल उन तत्वों को पहचानने और याद रखने की क्षमता के लिए है।शोधकर्ताओं ने कल्पना की है कि क्लियो कई स्थितियों और वातावरणों में उपयोगी होगा जिसमें एक रोबोट को अपने दिए गए कार्य के संदर्भ में अपने परिवेश का त्वरित सर्वेक्षण करना होगा और उसे समझना होगा।

"खोज और बचाव इस काम के लिए प्रेरक अनुप्रयोग है, लेकिन क्लियो इंसानों के साथ-साथ घरेलू रोबोट और फैक्ट्री के फर्श पर काम करने वाले रोबोट को भी शक्ति प्रदान कर सकता है," एमआईटी के एयरोनॉटिक्स और एस्ट्रोनॉटिक्स विभाग (एयरोएस्ट्रो) में एसोसिएट प्रोफेसर और प्रमुख अन्वेषक लुका कार्लोन कहते हैं।सूचना और निर्णय प्रणाली प्रयोगशाला (एलआईडीएस), और एमआईटी स्पार्क प्रयोगशाला के निदेशक।"यह वास्तव में रोबोट को पर्यावरण को समझने में मदद करने के बारे में है और उसे अपने मिशन को पूरा करने के लिए क्या याद रखना है।"

टीम अपने परिणामों का विवरण a में देती हैअध्ययनजर्नल में आज प्रकाशितआईईईई रोबोटिक्स और ऑटोमेशन पत्र.कार्लोन के सह-लेखकों में स्पार्क लैब के सदस्य शामिल हैं: डोमिनिक मैगियो, यूं चांग, ​​नाथन ह्यूजेस और लुकास श्मिट;और एमआईटी लिंकन प्रयोगशाला के सदस्य: मैथ्यू ट्रैंग, डैन ग्रिफ़िथ, कार्लिन डफ़र्टी, और एरिक क्रिस्टोफ़लो।

खुले मैदान

कंप्यूटर विज़न और प्राकृतिक भाषा प्रसंस्करण के क्षेत्र में भारी प्रगति ने रोबोटों को अपने परिवेश में वस्तुओं की पहचान करने में सक्षम बनाया है।लेकिन हाल तक, रोबोट केवल "बंद-सेट" परिदृश्यों में ही ऐसा करने में सक्षम थे, जहां उन्हें सावधानीपूर्वक नियंत्रित और नियंत्रित वातावरण में काम करने के लिए प्रोग्राम किया जाता है, जिसमें सीमित संख्या में ऑब्जेक्ट होते हैं जिन्हें पहचानने के लिए रोबोट को पहले से प्रशिक्षित किया गया है।

हाल के वर्षों में, शोधकर्ताओं ने रोबोटों को अधिक यथार्थवादी सेटिंग्स में वस्तुओं को पहचानने में सक्षम बनाने के लिए अधिक "खुला" दृष्टिकोण अपनाया है।ओपन-सेट पहचान के क्षेत्र में, शोधकर्ताओं ने तंत्रिका नेटवर्क बनाने के लिए डीप-लर्निंग टूल का लाभ उठाया है जो इंटरनेट से अरबों छवियों को संसाधित कर सकता है, साथ ही प्रत्येक छवि से संबंधित पाठ (जैसे कि एक दोस्त की कुत्ते की फेसबुक तस्वीर, जिसका शीर्षक है "मिलें")मेरा नया पिल्ला!")।

लाखों छवि-पाठ जोड़ों से, एक तंत्रिका नेटवर्क सीखता है, फिर एक दृश्य में उन खंडों की पहचान करता है जो कुछ शब्दों की विशेषता हैं, जैसे कि कुत्ता।फिर एक रोबोट उस तंत्रिका नेटवर्क को लागू करके एक कुत्ते को बिल्कुल नए दृश्य में देख सकता है।

लेकिन एक चुनौती अभी भी बनी हुई है कि किसी दृश्य को उपयोगी तरीके से कैसे पार्स किया जाए जो किसी विशेष कार्य के लिए प्रासंगिक हो।

मैगियो का कहना है, "किसी दृश्य के खंडों को आप एक 'ऑब्जेक्ट' के रूप में कैसे मान सकते हैं, यह निर्धारित करने के लिए विशिष्ट तरीके कुछ मनमाने ढंग से, निश्चित स्तर की ग्रैन्युलैरिटी का चयन करेंगे।""हालांकि, जिसे आप 'ऑब्जेक्ट' कहते हैं उसकी ग्रैन्युलैरिटी वास्तव में रोबोट को क्या करना है उससे संबंधित है। यदि वह ग्रैन्युलैरिटी कार्यों पर विचार किए बिना तय की जाती है, तो रोबोट एक ऐसे मानचित्र के साथ समाप्त हो सकता है जो उसके लिए उपयोगी नहीं हैकार्य।"

सूचना बाधा

क्लियो के साथ, एमआईटी टीम का उद्देश्य रोबोटों को अपने परिवेश की व्याख्या करने में सक्षम बनाना है ताकि वे ग्रैन्युलैरिटी के स्तर के साथ स्वचालित रूप से हाथ में काम कर सकें।

उदाहरण के लिए, किताबों के ढेर को एक शेल्फ में ले जाने का कार्य दिए जाने पर, रोबोट को यह निर्धारित करने में सक्षम होना चाहिए कि किताबों का पूरा ढेर कार्य-प्रासंगिक वस्तु है।इसी तरह, यदि कार्य स्टैक के बाकी हिस्सों से केवल हरी किताब को स्थानांतरित करना था, तो रोबोट को हरे रंग की किताब को एक लक्ष्य वस्तु के रूप में अलग करना चाहिए और बाकी दृश्य को अनदेखा करना चाहिए - जिसमें स्टैक में अन्य किताबें भी शामिल हैं।

टीम का दृष्टिकोण अत्याधुनिक कंप्यूटर विज़न और बड़े भाषा मॉडल को जोड़ता हैजो लाखों ओपन-सोर्स छवियों और सिमेंटिक टेक्स्ट के बीच संबंध बनाते हैं।वे मैपिंग टूल भी शामिल करते हैं जो स्वचालित रूप से एक छवि को कई छोटे खंडों में विभाजित करते हैं, जिन्हें यह निर्धारित करने के लिए तंत्रिका नेटवर्क में फीड किया जा सकता है कि क्या कुछ खंड शब्दार्थ रूप से समान हैं।

इसके बाद शोधकर्ता क्लासिक सूचना सिद्धांत से एक विचार का लाभ उठाते हैं जिसे "सूचना बाधा" कहा जाता है, जिसका उपयोग वे कई छवि खंडों को इस तरह से संपीड़ित करने के लिए करते हैं जो उन खंडों को चुनता है और संग्रहीत करता है जो किसी दिए गए कार्य के लिए शब्दार्थ रूप से सबसे अधिक प्रासंगिक हैं।

"उदाहरण के लिए, मान लें कि दृश्य में किताबों का ढेर है और मेरा काम सिर्फ हरी किताब प्राप्त करना है। उस स्थिति में, हम दृश्य के बारे में यह सारी जानकारी इस बाधा के माध्यम से आगे बढ़ाते हैं और खंडों के एक समूह के साथ समाप्त होते हैं जो प्रतिनिधित्व करते हैंहरी किताब," मैगियो बताते हैं।

"अन्य सभी खंड जो प्रासंगिक नहीं हैं, बस एक क्लस्टर में समूहीकृत हो जाते हैं जिन्हें हम आसानी से हटा सकते हैं। और हमारे पास सही ग्रैन्युलैरिटी पर एक ऑब्जेक्ट रह जाता है जो मेरे कार्य का समर्थन करने के लिए आवश्यक है।"

शोधकर्ताओं ने विभिन्न वास्तविक दुनिया के वातावरण में क्लियो का प्रदर्शन किया।

मैगियो का कहना है, "हमने जो सोचा था कि यह वास्तव में एक बकवास प्रयोग होगा वह मेरे अपार्टमेंट में क्लियो को चलाना होगा, जहां मैंने पहले से कोई सफाई नहीं की थी।"

टीम ने प्राकृतिक भाषा के कार्यों की एक सूची तैयार की, जैसे "कपड़ों का ढेर हटाना" और फिर मैगियो के अव्यवस्थित अपार्टमेंट की छवियों पर क्लियो को लागू किया।इन मामलों में, क्लियो अपार्टमेंट के दृश्यों को तुरंत खंडित करने में सक्षम था और उन खंडों की पहचान करने के लिए सूचना बॉटलनेक एल्गोरिदम के माध्यम से खंडों को फ़ीड करता था जो कपड़ों के ढेर को बनाते थे।

उन्होंने क्लियो को बोस्टन डायनामिक के चौपाए रोबोट, स्पॉट पर भी चलाया।उन्होंने रोबोट को पूरा करने के लिए कार्यों की एक सूची दी, और जैसे ही रोबोट ने एक कार्यालय भवन के अंदर का पता लगाया और मैप किया, क्लियो ने स्पॉट पर लगे ऑन-बोर्ड कंप्यूटर पर वास्तविक समय में मैप किए गए दृश्यों में से सेगमेंट को चुना।दिए गए कार्य से दृष्टिगत रूप से संबंधित हैं।

विधि ने केवल लक्ष्य वस्तुओं को दिखाते हुए एक ओवरलेइंग मानचित्र तैयार किया, जिसे रोबोट ने पहचानी गई वस्तुओं तक पहुंचने और भौतिक रूप से पूरा करने के लिए उपयोग किया।.

मैगियो कहते हैं, "वास्तविक समय में क्लियो को चलाना टीम के लिए एक बड़ी उपलब्धि थी।""बहुत से पूर्व कार्यों को पूरा करने में कई घंटे लग सकते हैं।"

आगे बढ़ते हुए, टीम क्लियो को उच्च-स्तरीय कार्यों को संभालने और फोटोरिअलिस्टिक दृश्य दृश्य प्रतिनिधित्व में हाल की प्रगति पर निर्माण करने में सक्षम बनाने की योजना बना रही है।

मैगियो कहते हैं, "हम अभी भी क्लियो को कुछ विशिष्ट कार्य दे रहे हैं, जैसे 'ताशों का एक डेक ढूंढना'।""खोज और बचाव के लिए, आपको इसे और अधिक उच्च-स्तरीय कार्य देने होंगे, जैसे 'बचे हुए लोगों को ढूंढना', या 'शक्ति वापस चालू करना।'इसलिए, हम अधिक जटिल कार्यों को कैसे पूरा किया जाए इसकी अधिक मानवीय-स्तर की समझ प्राप्त करना चाहते हैं।"

अधिक जानकारी:डोमिनिक मैगियो एट अल, क्लियो: रियल-टाइम टास्क-संचालित ओपन-सेट 3डी सीन ग्राफ़,आईईईई रोबोटिक्स और ऑटोमेशन पत्र(2024)।डीओआई: 10.1109/एलआरए.2024.3451395.dspace.mit.edu/handle/1721.1/157072यह कहानी एमआईटी न्यूज़ के सौजन्य से पुनः प्रकाशित की गई है (

web.mit.edu/newsoffice/), एक लोकप्रिय साइट जो एमआईटी अनुसंधान, नवाचार और शिक्षण के बारे में समाचार कवर करती है।उद्धरण

:नई विधि रोबोटों को किसी दृश्य को मैप करने, कार्यों के एक सेट को पूरा करने के लिए वस्तुओं की पहचान करने में सक्षम बनाती है (2024, 30 सितंबर)1 अक्टूबर 2024 को पुनः प्राप्तhttps://techxplore.com/news/2024-09-method-enables-robots-scene-tasks.html से

यह दस्तावेज कॉपीराइट के अधीन है।निजी अध्ययन या अनुसंधान के उद्देश्य से किसी भी निष्पक्ष व्यवहार के अलावा, नहींलिखित अनुमति के बिना भाग को पुन: प्रस्तुत किया जा सकता है।सामग्री केवल सूचना के प्रयोजनों के लिए प्रदान की गई है।