An approach to continually teach robots new skills via dialogues
उपयोगकर्ता अध्ययन में हमारे ढांचे का एक उदाहरण जहां एक उपयोगकर्ता एक रोबोट से सैंडविच बनाने के लिए कहता है, लेकिन रोबोट नहीं जानता कि पनीर कैसे काटा जाता है, इसलिए वह उपयोगकर्ताओं से भाषा में मदद मांगता है और उपयोगकर्ता द्वारा यह कौशल सिखाने के बाद रोबोट इसे संग्रहीत करता हैकौशल और इसका उपयोग स्वयं एक समान सैंडविच बनाने के लिए हमेशा के लिए किया जा सकता है।यह कार्य एक रोबोट की ओर एक रास्ता है जो वास्तविक दुनिया के कामों पर मानवीय प्रतिक्रिया के साथ सीखना जारी रख सकता है।श्रेय:arXiv(2024)।डीओआई: 10.48550/arxiv.2409.03166

जबकि रोबोटिस्टों ने पिछले दशकों में तेजी से परिष्कृत रोबोटिक सिस्टम पेश किए हैं, अब तक पेश किए गए अधिकांश समाधान विशिष्ट कार्यों से निपटने के लिए पूर्व-प्रोग्राम किए गए और प्रशिक्षित हैं।रोबोटों के साथ बातचीत करते हुए उन्हें लगातार नए कौशल सिखाने की क्षमता अत्यधिक फायदेमंद हो सकती है और उनके व्यापक उपयोग को सुविधाजनक बना सकती है।

एरिजोना स्टेट यूनिवर्सिटी (एएसयू) के शोधकर्ताओं ने हाल ही में एक विकसित किया हैजो उपयोगकर्ताओं को संवाद-आधारित इंटरैक्शन के माध्यम से नए कार्यों पर रोबोट को लगातार प्रशिक्षित करने की अनुमति दे सकता है।यह दृष्टिकोण, ए में प्रस्तुत किया गयाकागज़पर पोस्ट किया गयाarXivप्रीप्रिंट सर्वर, का उपयोग शुरू में एक रोबोटिक मैनिपुलेटर को सफलतापूर्वक कोल्ड सैंडविच तैयार करने का तरीका सिखाने के लिए किया गया था।

पेपर के पर्यवेक्षक लेखक नकुल गोपालन ने टेक एक्सप्लोर को बताया, "हमारा लक्ष्य लोगों के घरों में रोबोट की तैनाती में योगदान देना है जो ठंडा भोजन पकाना सीख सकें।""हम इसे उपयोगकर्ता के दृष्टिकोण से चाहते हैं जहां हम समझते हैं कि लोगों को घरेलू रोबोट से किस व्यवहार की आवश्यकता है।

"उपयोगकर्ता के इस दृष्टिकोण ने हमें रोबोट के साथ संचार करते समय भाषा और संवाद का उपयोग करने के लिए प्रेरित किया है। दुर्भाग्य से, ये रोबोट सब कुछ नहीं जानते होंगे, जैसे कि आपके लिए पास्ता कैसे पकाना है।"

गोपालन और उनके सहयोगियों के हालिया काम का मुख्य उद्देश्य एक ऐसी विधि तैयार करना था जो रोबोटों को मानव एजेंटों से पहले से अज्ञात कौशल या व्यवहार तेजी से हासिल करने की अनुमति देगा।

में एकपिछला पेपरआर्टिफिशियल इंटेलिजेंस पर एएएआई सम्मेलन में प्रस्तुत टीम ने संवाद-आधारित बातचीत के माध्यम से दृश्य कार्यों को पूरा करने के लिए रोबोट को सिखाने पर ध्यान केंद्रित किया।उनका नया अध्ययन इस पिछले प्रयास पर आधारित है, जो संवाद-आधारित रोबोट प्रशिक्षण के लिए एक अधिक व्यापक पद्धति पेश करता है।

पेपर के सह-लेखक वेईवेई गु ने टेक एक्सप्लोर को बताया, "इस काम का हमारा दायरा उपयोगकर्ताओं को अपने रोबोट को निजीकृत करने की अनुमति देकर रोबोट की प्रयोज्यता में सुधार करना है।""चूंकि रोबोट को अलग-अलग उपयोगकर्ताओं के लिए अलग-अलग कार्यों को पूरा करने की आवश्यकता होती है, और इन कार्यों को पूरा करने के लिए अलग-अलग कौशल की आवश्यकता होती है, निर्माताओं के लिए इन सभी परिदृश्यों के लिए आवश्यक सभी कौशल के साथ रोबोट को पूर्व-प्रशिक्षित करना असंभव है। इसलिए, रोबोट को इन्हें प्राप्त करने की आवश्यकता होती हैउपयोगकर्ताओं से कौशल और कार्य प्रासंगिक ज्ञान।"

यह सुनिश्चित करने के लिए कि एक रोबोट प्रभावी ढंग से उपयोगकर्ताओं से नए कौशल प्राप्त कर सके, टीम को विभिन्न चुनौतियों से पार पाना पड़ा।सबसे पहले, उन्हें यह सुनिश्चित करना था कि रोबोट को पढ़ाते समय मानव उपयोगकर्ता शामिल हों और रोबोट किसी भी संदेह को संप्रेषित करे या अतिरिक्त जानकारी का अनुरोध इस तरह से करे जिसे गैर-विशेषज्ञ उपयोगकर्ता समझ सकें।

"दूसरा, रोबोट को उपयोगकर्ताओं के साथ केवल कुछ बातचीत से ही ज्ञान प्राप्त करने की आवश्यकता है, क्योंकि उपयोगकर्ता अनंत समय तक रोबोट के साथ नहीं फंसे रह सकते हैं," गु ने कहा।"अंत में, रोबोट को नया ज्ञान प्राप्त करने के बावजूद पहले से मौजूद किसी भी ज्ञान को नहीं भूलना चाहिए।"

गोपालन, गु और उनके सहयोगियों सुरेश कोंडेपुडी और लिक्सियाओ हुआंग ने निरंतर सीखने की इन सभी आवश्यकताओं को सामूहिक रूप से संबोधित करने के लिए काम किया।उनकी प्रस्तावित इंटरैक्टिव निरंतर शिक्षण प्रणाली तीन अलग-अलग घटकों के माध्यम से इन तीन उप-कार्यों से निपटती है।

An approach to continually teach robots new skills via dialogues
एक उपयोगकर्ता रोबोट का हाथ पकड़कर उसे कौशल सिखा रहा है।श्रेय: गु एट अल.

गोपालन ने बताया, "सबसे पहले, एक बड़ा भाषा मॉडल (एलएलएम) आधारित संवाद प्रणाली उपयोगकर्ताओं से ऐसे किसी भी ज्ञान को प्राप्त करने या लोगों के साथ बातचीत जारी रखने के लिए प्रश्न पूछती है जो उनके पास नहीं है।""हालांकि, रोबोट को कैसे पता चलता है कि वह कुछ नहीं जानता है?

"इस समस्या का समाधान करने के लिए, हमने रोबोट कौशल की लाइब्रेरी पर एक दूसरे घटक को प्रशिक्षित किया और भाषा आदेशों के लिए उनकी मैपिंग सीखी। यदि अनुरोध किया गया कौशल उस भाषा के करीब नहीं है जिसे रोबोट पहले से जानता है, तो यह एक प्रदर्शन के लिए कहता है।"

टीम की नव विकसित प्रणाली में एक तंत्र भी शामिल है जो रोबोटों को यह समझने की अनुमति देता है कि मनुष्य किसी कार्य को पूरा करने का तरीका दिखा रहे हैं।यदि प्रदान किए गए प्रदर्शन अपर्याप्त थे और उन्होंने अभी तक विश्वसनीय रूप से कोई कौशल हासिल नहीं किया है, तो मॉड्यूल रोबोट को अतिरिक्त कौशल मांगने की अनुमति देता है।

गु ने कहा, "हमने रोबोट के कौशल के ज्ञान को मॉडल करने के लिए संयुक्त रूप से कौशल प्रतिनिधित्व और भाषा प्रतिनिधित्व का उपयोग किया।""जब रोबोट को किसी कौशल को निष्पादित करने की आवश्यकता होती है, तो वह पहले यह अनुमान लगाता है कि कौशल के भाषा प्रतिनिधित्व और रोबोट के पास मौजूद सभी कौशलों की तुलना करके कौशल को सीधे निष्पादित करने की क्षमता है या नहीं।

"रोबोट सीधे कौशल का प्रदर्शन करता है यदि उसे विश्वास है कि वह ऐसा कर सकता है। अन्यथा, यह उपयोगकर्ता को रोबोट के सामने स्वयं कौशल का प्रदर्शन करके कौशल का प्रदर्शन करने के लिए कहता है।"

अनिवार्य रूप से, जब कोई रोबोट किसी उपयोगकर्ता को एक विशिष्ट कार्य पूरा करते हुए देखता है, तो टीम का सिस्टम एकत्र की गई दृश्य जानकारी के आधार पर यह निर्धारित करता है कि उसके पास पहले से ही इसे पूरा करने के लिए आवश्यक कौशल हैं।

यदि सिस्टम भविष्यवाणी करता है कि रोबोट ने अभी तक नया कौशल हासिल नहीं किया है, तो रोबोट उपयोगकर्ता को रिमोट कंट्रोल का उपयोग करके संबंधित रोबोट प्रक्षेप पथ को चित्रित करने के लिए कहेगा, ताकि वह इन्हें अपनी कौशल लाइब्रेरी में जोड़ सके और उसी कार्य को स्वतंत्र रूप से पूरा कर सके।भविष्य।

गु ने कहा, "हम रोबोट को अपने संदेह व्यक्त करने की अनुमति देने के लिए कौशल के इन प्रतिनिधित्वों को एलएलएम से जोड़ते हैं, ताकि गैर-विशेषज्ञ उपयोगकर्ता भी रोबोट की आवश्यकताओं को समझ सकें और तदनुसार मदद कर सकें।"

सिस्टम का दूसरा मॉड्यूल निम्न-रैंक अनुकूलन (एलओआरए) के साथ पूर्व-प्रशिक्षित और फाइन-ट्यून एक्शन चंकिंग ट्रांसफार्मर (एसीटी) पर आधारित है।अंत में, टीम ने एक निरंतर सीखने वाला मॉड्यूल विकसित किया जो रोबोट को अपने कौशल पुस्तकालय में लगातार नए कौशल जोड़ने की अनुमति देता है।

"रोबोट को कुछ पूर्व-चयनित कौशल के साथ पूर्व-प्रशिक्षित करने के बाद, तंत्रिका-नेटवर्क के अधिकांश वजन तय किए जाते हैं, और लो-रैंक अनुकूलन द्वारा पेश किए गए वजन का केवल एक छोटा सा हिस्सा रोबोट के लिए नए कौशल सीखने के लिए उपयोग किया जाता है।,'' गु ने कहा।"हमने पाया कि हमारा एल्गोरिदम पहले से मौजूद किसी भी कौशल को भूले बिना नए कौशल को कुशलतापूर्वक सीखने में सक्षम था।"

शोधकर्ताओं ने वास्तविक दुनिया के परीक्षणों की एक श्रृंखला में अपने प्रस्तावित बंद लूप कौशल सीखने की प्रणाली का मूल्यांकन किया, इसे फ्रैंका एफआर 3 रोबोटिक मैनिपुलेटर पर लागू किया।इस रोबोट ने आठ मानव उपयोगकर्ताओं के साथ बातचीत की और धीरे-धीरे एक साधारण रोजमर्रा का काम, यानी सैंडविच बनाना सीख लिया।

An approach to continually teach robots new skills via dialogues
इसके बाद रोबोट ने कार्यों का पूरा क्रम पूरा किया और एक सैंडविच बनाया।श्रेय: गु एट अल.

गोपालन ने कहा, "यह तथ्य कि हम वास्तविक उपयोगकर्ताओं के साथ संवाद के साथ एक बंद लूप कौशल प्रशिक्षण दृष्टिकोण का प्रदर्शन कर सकते हैं, अपने आप में प्रभावशाली है।""हम दिखाते हैं कि रोबोट हमारी प्रयोगशाला में आए उपयोगकर्ताओं द्वारा सिखाए गए सैंडविच बना सकता है।"

शोधकर्ताओं द्वारा एकत्र किए गए प्रारंभिक परिणाम अत्यधिक आशाजनक थे, क्योंकि ACT-LORA घटक को केवल पांच मानव प्रदर्शनों के बाद 100% सटीकता के साथ नए परिष्कृत कौशल प्राप्त करने के लिए पाया गया था।इसके अलावा, मॉडल ने अन्य समान मॉडलों से बेहतर प्रदर्शन करते हुए पूर्व-प्रशिक्षित कौशल पर 74.75% की सटीकता बरकरार रखी।

गु ने कहा, "हम बहुत उत्साहित हैं कि हमने जो रोबोट सिस्टम डिज़ाइन किया है वह वास्तविक उपयोगकर्ताओं के साथ काम करने में सक्षम है क्योंकि यह इस काम के लिए वास्तविक रोबोट अनुप्रयोगों के लिए एक आशाजनक भविष्य दिखाता है।""हालांकि, हमें ऐसी प्रणाली के संचार की प्रभावशीलता में सुधार करने की गुंजाइश दिखती है।"

हालाँकि नव विकसित शिक्षण प्रणाली ने टीम के प्रयोगों में अच्छे परिणाम दिए, लेकिन इसकी कुछ सीमाएँ भी हैं।उदाहरण के लिए, टीम ने पाया कि वह रोबोट और मानव उपयोगकर्ताओं के बीच टर्न-टेकिंग का समर्थन नहीं कर सकती है, इस प्रकार यह शोधकर्ताओं पर निर्भर था कि वह यह स्पष्ट करे कि कार्य को निपटाने की बारी किसकी है।

गोपालन ने कहा, "हालांकि हमारे निष्कर्ष हमारे लिए रोमांचक थे, हमने यह भी देखा कि रोबोट को सीखने में समय लगता है और यह उपयोगकर्ताओं के लिए परेशान करने वाला हो सकता है।""हमें अभी भी इस प्रक्रिया को तेज़ बनाने के लिए तंत्र ढूंढना है, जो एक मुख्य मशीन सीखने की समस्या है जिसे हम आगे हल करने का इरादा रखते हैं।

"हम चाहते हैं कि यह काम वास्तविक प्रयोगों के लिए लोगों के घरों में पहुंचे, ताकि हम जान सकें कि घरेलू देखभाल की स्थिति में रोबोट का उपयोग करने में चुनौतियां कहां मौजूद हैं।"

गु, गोपालन और उनके सहयोगियों द्वारा विकसित प्रणाली को जल्द ही और बेहतर बनाया जा सकता है और खाना पकाने के व्यापक कार्यों पर इसका परीक्षण किया जा सकता है।शोधकर्ता अब बारी-बारी से देखी गई समस्याओं को हल करने और भोजन के सेट का विस्तार करने पर काम कर रहे हैं, जिसे उपयोगकर्ता रोबोट को खाना बनाना सिखा सकते हैं।वे मानव प्रतिभागियों के एक बड़े समूह को शामिल करते हुए आगे के प्रयोग करने की भी योजना बना रहे हैं।

गु ने कहा, "प्राकृतिक अंतःक्रियाओं में टर्न-टेकिंग समस्या एक दिलचस्प समस्या है।""इस शोध समस्या का इंटरैक्टिव घरेलू रोबोटों पर भी मजबूत अनुप्रयोग प्रभाव है।

"इस समस्या का समाधान करने के अलावा, हम अधिक भिन्न कार्यों को शुरू करके और वास्तविक दुनिया के जनसांख्यिकी के उपयोगकर्ताओं के साथ अपने सिस्टम का प्रयोग करके इस काम के आकार को बढ़ाने में रुचि रखते हैं।"

अधिक जानकारी:वेईवेई गु एट अल, संवाद के माध्यम से सतत कौशल और कार्य सीखना,arXiv(2024)।डीओआई: 10.48550/arxiv.2409.03166

जर्नल जानकारी: arXiv

© 2024 साइंस एक्स नेटवर्क

उद्धरण:कम्प्यूटेशनल दृष्टिकोण संवाद के माध्यम से रोबोटों को लगातार नए कौशल सिखा सकता है (2024, 19 सितंबर)19 सितंबर 2024 को पुनः प्राप्तhttps://techxplore.com/news/2024-09-approach-robots-skills-dialogue.html से

यह दस्तावेज कॉपीराइट के अधीन है।निजी अध्ययन या अनुसंधान के उद्देश्य से किसी भी निष्पक्ष व्यवहार के अलावा, नहींलिखित अनुमति के बिना भाग को पुन: प्रस्तुत किया जा सकता है।सामग्री केवल सूचना के प्रयोजनों के लिए प्रदान की गई है।