रंग और बनावट की दुनिया जल्द ही उन लोगों के लिए अधिक सुलभ हो सकती है जो अंधे हैं या कम दृष्टि वाले हैं, नए सॉफ़्टवेयर के माध्यम से जो बताता है कि कैमरा क्या रिकॉर्ड करता है।
औजार, जिसे वर्ल्डस्क्राइब कहा जाता है, मिशिगन विश्वविद्यालय के शोधकर्ताओं द्वारा डिजाइन किया गया था और इसे 2024 में प्रस्तुत किया जाएगायूजर इंटरफेस सॉफ्टवेयर और प्रौद्योगिकी पर एसीएम संगोष्ठीपिट्सबर्ग में.
अध्ययनइसका शीर्षक "वर्ल्डस्क्राइब: टुवर्ड्स कॉन्टेक्स्ट-अवेयर लाइव विज़ुअल डिस्क्रिप्शन" है और यह पर दिखाई देता हैarXivप्रीप्रिंट सर्वर.
यह टूल कैमरा छवियों की व्याख्या करने और वास्तविक समय में टेक्स्ट और ऑडियो विवरण तैयार करने के लिए जेनरेटिव एआई (जेनएआई) भाषा मॉडल का उपयोग करता है ताकि उपयोगकर्ताओं को अपने परिवेश के बारे में अधिक तेज़ी से जागरूक होने में मदद मिल सके।यह उपयोगकर्ता के आदेशों या किसी वस्तु के कैमरे के फ्रेम में रहने की अवधि के आधार पर विवरण के स्तर को समायोजित कर सकता है, और वॉल्यूम स्वचालित रूप से भीड़-भाड़ वाले कमरे, व्यस्त सड़कों और तेज़ संगीत जैसे शोर वाले वातावरण के अनुकूल हो जाता है।
टूल का प्रदर्शन 14 अक्टूबर को शाम 6:00 बजे ईएसटी पर किया जाएगा, और टूल का एक अध्ययन - जिसे आयोजकों ने सम्मेलन में सर्वश्रेष्ठ में से एक के रूप में पहचाना है - 16 अक्टूबर को 3:15 बजे ईएसटी पर प्रस्तुत किया जाएगा।
"हमारे लिएअंधे लोग, यह वास्तव में दुनिया के साथ हमारे काम करने के तरीकों में क्रांतिकारी बदलाव ला सकता हैरोजमर्रा की जिंदगी,'' सैम राउ ने कहा, जो जन्म से अंधा था और उसने वर्ल्डस्क्राइब परीक्षण अध्ययन में भाग लिया था।
"मेरे पास दृष्टि की कोई अवधारणा नहीं है, लेकिन जब मैंने उपकरण का प्रयास किया, तो मुझे वास्तविक दुनिया की एक तस्वीर मिली, और मैं उन सभी रंगों और बनावट से उत्साहित हो गया, जिन तक मेरी अन्यथा पहुंच नहीं होती," राऊकहा।
"एक अंधे व्यक्ति के रूप में, हम अपने आस-पास जो कुछ भी हो रहा है उसकी तस्वीर को टुकड़े-टुकड़े करके भर रहे हैं, और एक बड़ी तस्वीर बनाने के लिए बहुत अधिक मानसिक प्रयास करना पड़ सकता है। लेकिन यह उपकरण हमें सही जानकारी देने में मदद कर सकता हैदूर, और मेरी राय में, हमें यह पता लगाने के बजाय कि क्या हो रहा है, सिर्फ इंसान होने पर ध्यान केंद्रित करने में मदद करता है, मुझे नहीं पता कि क्या मैं शब्दों में बता सकता हूं कि यह वास्तव में हमारे लिए कितना बड़ा चमत्कार है।"
परीक्षण अध्ययन के दौरान, राऊ ने स्मार्टफोन से लैस हेडसेट पहना और अनुसंधान प्रयोगशाला में घूमे।फोन कैमरे ने छवियों को वायरलेस तरीके से एक सर्वर पर स्थानांतरित कर दिया, जिससे लगभग तुरंत कैमरे के फ्रेम में वस्तुओं का टेक्स्ट और ऑडियो विवरण तैयार हो गया: डेस्क पर एक लैपटॉप, कागजात का ढेर, एक टीवी और पास की दीवार पर लगी पेंटिंग।
कैमरे की नज़र में जो कुछ भी था उससे मेल खाने के लिए विवरण लगातार बदलते रहे, उन वस्तुओं को प्राथमिकता दी गई जो राऊ के सबसे करीब थीं।डेस्क पर एक संक्षिप्त नज़र से एक शब्द में सरल विवरण प्राप्त हुआ, लेकिन लंबे निरीक्षण से शीर्ष पर व्यवस्थित फ़ोल्डरों और कागजात के बारे में जानकारी प्राप्त हुई।
टूल तीन अलग-अलग एआई भाषा मॉडल के बीच स्विच करके अपने विवरण में विवरण के स्तर को समायोजित कर सकता है।YOLO वर्ल्ड मॉडल तेजी से वस्तुओं का बहुत ही सरल विवरण तैयार करता है जो कैमरे के फ्रेम में संक्षेप में दिखाई देता है।लंबे समय तक फ़्रेम में रहने वाली वस्तुओं का विस्तृत विवरण चैटजीपीटी के पीछे के मॉडल जीपीटी-4 द्वारा नियंत्रित किया जाता है।एक अन्य मॉडल, मूनड्रीम, मध्यवर्ती स्तर का विवरण प्रदान करता है।
कंप्यूटर विज्ञान के सहायक प्रोफेसर अनहोंग गुओ ने कहा, "एआई का लाभ उठाने वाली कई मौजूदा सहायक प्रौद्योगिकियां विशिष्ट कार्यों पर ध्यान केंद्रित करती हैं या कुछ प्रकार की बारी-बारी बातचीत की आवश्यकता होती है। उदाहरण के लिए, आप एक तस्वीर लेते हैं, फिर कुछ परिणाम प्राप्त करते हैं।"और इंजीनियरिंग और अध्ययन के संबंधित लेखक।
"एक जीवंत अनुभव के लिए समृद्ध और विस्तृत विवरण प्रदान करना एक हैभव्य चुनौतीएक्सेसिबिलिटी टूल के लिए," गुओ ने कहा। "हमने वास्तविक समय में स्वचालित और अनुकूली विवरण बनाने के लिए तेजी से सक्षम एआई मॉडल का उपयोग करने का अवसर देखा।"
क्योंकि यह GenAI पर निर्भर करता है, WorldScribe उपयोगकर्ता द्वारा प्रदान किए गए कार्यों या प्रश्नों का भी जवाब दे सकता है, जैसे किसी भी ऑब्जेक्ट के विवरण को प्राथमिकता देना जिसे उपयोगकर्ता ने टूल से ढूंढने के लिए कहा था।हालाँकि, कुछ अध्ययन प्रतिभागियों ने नोट किया कि उपकरण को कुछ वस्तुओं, जैसे कि आईड्रॉपर बोतल, का पता लगाने में परेशानी हो रही थी।
राऊ का कहना है कि यह उपकरण अभी भी अपनी वर्तमान स्थिति में रोजमर्रा के उपयोग के लिए थोड़ा अव्यवस्थित है, लेकिन उनका कहना है कि अगर इसे स्मार्ट ग्लास या किसी अन्य पहनने योग्य डिवाइस में एकीकृत किया जा सकता है तो वह इसे हर रोज इस्तेमाल करेंगे।
शोधकर्ताओं ने यू-एम इनोवेशन पार्टनरशिप की सहायता से पेटेंट संरक्षण के लिए आवेदन किया है और प्रौद्योगिकी को परिष्कृत करने और इसे बाजार में लाने में मदद करने के लिए भागीदारों की तलाश कर रहे हैं।
गुओ यू-एम स्कूल ऑफ इंफॉर्मेशन में सूचना के सहायक प्रोफेसर भी हैं।
अधिक जानकारी:रुई-चे चांग एट अल, वर्ल्डस्क्राइब: टुवर्ड्स कॉन्टेक्स्ट-अवेयर लाइव विज़ुअल डिस्क्रिप्शन,arXiv(2024)।डीओआई: 10.1145/3654777.3676375
जर्नल जानकारी: arXiv
उद्धरण:एआई-संचालित सॉफ्टवेयर वास्तविक समय में दृष्टिबाधितों के लिए परिवेश बताता है (2024, 10 अक्टूबर)10 अक्टूबर 2024 को पुनः प्राप्तhttps://techxplore.com/news/2024-10-ai-powered-software-narrate-visually.html से
यह दस्तावेज कॉपीराइट के अधीन है।निजी अध्ययन या अनुसंधान के उद्देश्य से किसी भी निष्पक्ष व्यवहार के अलावा, नहींलिखित अनुमति के बिना भाग को पुन: प्रस्तुत किया जा सकता है।सामग्री केवल सूचना के प्रयोजनों के लिए प्रदान की गई है।