Real-time descriptions of surroundings for people who are blind
जैसे ही कोई उपयोगकर्ता कमरे के चारों ओर अपने फोन कैमरे को स्कैन करता है, वर्ल्डस्क्राइब कैमरे द्वारा रिकॉर्ड की गई वस्तुओं का संक्षिप्त ऑडियो विवरण तैयार करेगा।श्रेय: शेन-यूं लाई, अनुमति के साथ प्रयोग किया गया

रंग और बनावट की दुनिया जल्द ही उन लोगों के लिए अधिक सुलभ हो सकती है जो अंधे हैं या कम दृष्टि वाले हैं, नए सॉफ़्टवेयर के माध्यम से जो बताता है कि कैमरा क्या रिकॉर्ड करता है।

, जिसे वर्ल्डस्क्राइब कहा जाता है, मिशिगन विश्वविद्यालय के शोधकर्ताओं द्वारा डिजाइन किया गया था और इसे 2024 में प्रस्तुत किया जाएगायूजर इंटरफेस सॉफ्टवेयर और प्रौद्योगिकी पर एसीएम संगोष्ठीपिट्सबर्ग में.

अध्ययनइसका शीर्षक "वर्ल्डस्क्राइब: टुवर्ड्स कॉन्टेक्स्ट-अवेयर लाइव विज़ुअल डिस्क्रिप्शन" है और यह पर दिखाई देता हैarXivप्रीप्रिंट सर्वर.

यह टूल कैमरा छवियों की व्याख्या करने और वास्तविक समय में टेक्स्ट और ऑडियो विवरण तैयार करने के लिए जेनरेटिव एआई (जेनएआई) भाषा मॉडल का उपयोग करता है ताकि उपयोगकर्ताओं को अपने परिवेश के बारे में अधिक तेज़ी से जागरूक होने में मदद मिल सके।यह उपयोगकर्ता के आदेशों या किसी वस्तु के कैमरे के फ्रेम में रहने की अवधि के आधार पर विवरण के स्तर को समायोजित कर सकता है, और वॉल्यूम स्वचालित रूप से भीड़-भाड़ वाले कमरे, व्यस्त सड़कों और तेज़ संगीत जैसे शोर वाले वातावरण के अनुकूल हो जाता है।

श्रेय: रुई-चे चांग

टूल का प्रदर्शन 14 अक्टूबर को शाम 6:00 बजे ईएसटी पर किया जाएगा, और टूल का एक अध्ययन - जिसे आयोजकों ने सम्मेलन में सर्वश्रेष्ठ में से एक के रूप में पहचाना है - 16 अक्टूबर को 3:15 बजे ईएसटी पर प्रस्तुत किया जाएगा।

"हमारे लिए, यह वास्तव में दुनिया के साथ हमारे काम करने के तरीकों में क्रांतिकारी बदलाव ला सकता है,'' सैम राउ ने कहा, जो जन्म से अंधा था और उसने वर्ल्डस्क्राइब परीक्षण अध्ययन में भाग लिया था।

"मेरे पास दृष्टि की कोई अवधारणा नहीं है, लेकिन जब मैंने उपकरण का प्रयास किया, तो मुझे वास्तविक दुनिया की एक तस्वीर मिली, और मैं उन सभी रंगों और बनावट से उत्साहित हो गया, जिन तक मेरी अन्यथा पहुंच नहीं होती," राऊकहा।

"एक अंधे व्यक्ति के रूप में, हम अपने आस-पास जो कुछ भी हो रहा है उसकी तस्वीर को टुकड़े-टुकड़े करके भर रहे हैं, और एक बड़ी तस्वीर बनाने के लिए बहुत अधिक मानसिक प्रयास करना पड़ सकता है। लेकिन यह उपकरण हमें सही जानकारी देने में मदद कर सकता हैदूर, और मेरी राय में, हमें यह पता लगाने के बजाय कि क्या हो रहा है, सिर्फ इंसान होने पर ध्यान केंद्रित करने में मदद करता है, मुझे नहीं पता कि क्या मैं शब्दों में बता सकता हूं कि यह वास्तव में हमारे लिए कितना बड़ा चमत्कार है।"

Real-time descriptions of surroundings for people who are blind
जब उपयोगकर्ता कमरे के चारों ओर धीरे-धीरे घूम रहा है, तो WorldScribe वस्तुओं का रंगीन विवरण बनाने के लिए GPT-4 का उपयोग करेगा।जब लैपटॉप ढूंढने में मदद मांगी जाएगी, तो टूल कमरे में मौजूद किसी भी लैपटॉप के विस्तृत विवरण को प्राथमिकता देगा।श्रेय: शेन-यूं लाई, अनुमति के साथ प्रयोग किया गया

परीक्षण अध्ययन के दौरान, राऊ ने स्मार्टफोन से लैस हेडसेट पहना और अनुसंधान प्रयोगशाला में घूमे।फोन कैमरे ने छवियों को वायरलेस तरीके से एक सर्वर पर स्थानांतरित कर दिया, जिससे लगभग तुरंत कैमरे के फ्रेम में वस्तुओं का टेक्स्ट और ऑडियो विवरण तैयार हो गया: डेस्क पर एक लैपटॉप, कागजात का ढेर, एक टीवी और पास की दीवार पर लगी पेंटिंग।

कैमरे की नज़र में जो कुछ भी था उससे मेल खाने के लिए विवरण लगातार बदलते रहे, उन वस्तुओं को प्राथमिकता दी गई जो राऊ के सबसे करीब थीं।डेस्क पर एक संक्षिप्त नज़र से एक शब्द में सरल विवरण प्राप्त हुआ, लेकिन लंबे निरीक्षण से शीर्ष पर व्यवस्थित फ़ोल्डरों और कागजात के बारे में जानकारी प्राप्त हुई।

टूल तीन अलग-अलग एआई भाषा मॉडल के बीच स्विच करके अपने विवरण में विवरण के स्तर को समायोजित कर सकता है।YOLO वर्ल्ड मॉडल तेजी से वस्तुओं का बहुत ही सरल विवरण तैयार करता है जो कैमरे के फ्रेम में संक्षेप में दिखाई देता है।लंबे समय तक फ़्रेम में रहने वाली वस्तुओं का विस्तृत विवरण चैटजीपीटी के पीछे के मॉडल जीपीटी-4 द्वारा नियंत्रित किया जाता है।एक अन्य मॉडल, मूनड्रीम, मध्यवर्ती स्तर का विवरण प्रदान करता है।

कंप्यूटर विज्ञान के सहायक प्रोफेसर अनहोंग गुओ ने कहा, "एआई का लाभ उठाने वाली कई मौजूदा सहायक प्रौद्योगिकियां विशिष्ट कार्यों पर ध्यान केंद्रित करती हैं या कुछ प्रकार की बारी-बारी बातचीत की आवश्यकता होती है। उदाहरण के लिए, आप एक तस्वीर लेते हैं, फिर कुछ परिणाम प्राप्त करते हैं।"और इंजीनियरिंग और अध्ययन के संबंधित लेखक।

"एक जीवंत अनुभव के लिए समृद्ध और विस्तृत विवरण प्रदान करना एक हैएक्सेसिबिलिटी टूल के लिए," गुओ ने कहा। "हमने वास्तविक समय में स्वचालित और अनुकूली विवरण बनाने के लिए तेजी से सक्षम एआई मॉडल का उपयोग करने का अवसर देखा।"

क्योंकि यह GenAI पर निर्भर करता है, WorldScribe उपयोगकर्ता द्वारा प्रदान किए गए कार्यों या प्रश्नों का भी जवाब दे सकता है, जैसे किसी भी ऑब्जेक्ट के विवरण को प्राथमिकता देना जिसे उपयोगकर्ता ने टूल से ढूंढने के लिए कहा था।हालाँकि, कुछ अध्ययन प्रतिभागियों ने नोट किया कि उपकरण को कुछ वस्तुओं, जैसे कि आईड्रॉपर बोतल, का पता लगाने में परेशानी हो रही थी।

राऊ का कहना है कि यह उपकरण अभी भी अपनी वर्तमान स्थिति में रोजमर्रा के उपयोग के लिए थोड़ा अव्यवस्थित है, लेकिन उनका कहना है कि अगर इसे स्मार्ट ग्लास या किसी अन्य पहनने योग्य डिवाइस में एकीकृत किया जा सकता है तो वह इसे हर रोज इस्तेमाल करेंगे।

शोधकर्ताओं ने यू-एम इनोवेशन पार्टनरशिप की सहायता से पेटेंट संरक्षण के लिए आवेदन किया है और प्रौद्योगिकी को परिष्कृत करने और इसे बाजार में लाने में मदद करने के लिए भागीदारों की तलाश कर रहे हैं।

गुओ यू-एम स्कूल ऑफ इंफॉर्मेशन में सूचना के सहायक प्रोफेसर भी हैं।

अधिक जानकारी:रुई-चे चांग एट अल, वर्ल्डस्क्राइब: टुवर्ड्स कॉन्टेक्स्ट-अवेयर लाइव विज़ुअल डिस्क्रिप्शन,arXiv(2024)।डीओआई: 10.1145/3654777.3676375

जर्नल जानकारी: arXiv

उद्धरण:एआई-संचालित सॉफ्टवेयर वास्तविक समय में दृष्टिबाधितों के लिए परिवेश बताता है (2024, 10 अक्टूबर)10 अक्टूबर 2024 को पुनः प्राप्तhttps://techxplore.com/news/2024-10-ai-powered-software-narrate-visually.html से

यह दस्तावेज कॉपीराइट के अधीन है।निजी अध्ययन या अनुसंधान के उद्देश्य से किसी भी निष्पक्ष व्यवहार के अलावा, नहींलिखित अनुमति के बिना भाग को पुन: प्रस्तुत किया जा सकता है।सामग्री केवल सूचना के प्रयोजनों के लिए प्रदान की गई है।