Rice research could make weird AI images a thing of the past
बाईं ओर का चित्र एक मानक विधि द्वारा तैयार किया गया था जबकि दाईं ओर का चित्र इलास्टिकडिफ्यूजन द्वारा तैयार किया गया था।दोनों छवियों का संकेत था, "एक एथलीट बिल्ली की तस्वीर जो एक प्रेस कॉन्फ्रेंस में पत्रकारों को अपने नवीनतम घोटाले के बारे में समझा रही है।"श्रेय: मोय्यद हाजी अली/राइस यूनिवर्सिटी

जनरेटिव आर्टिफिशियल इंटेलिजेंस (एआई) को लगातार छवियां बनाने के लिए कुख्यात रूप से संघर्ष करना पड़ा है, जिससे अक्सर उंगलियों और चेहरे की समरूपता जैसे विवरण गलत हो जाते हैं।इसके अलावा, विभिन्न छवि आकारों और रिज़ॉल्यूशन पर छवियां उत्पन्न करने के लिए संकेत दिए जाने पर ये मॉडल पूरी तरह से विफल हो सकते हैं।

राइस यूनिवर्सिटी के कंप्यूटर वैज्ञानिकों की पूर्व-प्रशिक्षित छवियां बनाने की नई विधिमॉडल - जेनरेटिव एआई मॉडल का एक वर्ग जो उन छवियों में यादृच्छिक शोर की परत दर परत जोड़कर "सीखता है" और फिर अतिरिक्त शोर को हटाकर नई छवियां उत्पन्न करता है - ऐसे मुद्दों को ठीक करने में मदद कर सकता है।

राइस यूनिवर्सिटी के कंप्यूटर साइंस डॉक्टरेट छात्र मोय्यद हाजी अली ने इंस्टीट्यूट ऑफ इलेक्ट्रिकल एंड इलेक्ट्रॉनिक्स इंजीनियर्स (आईईईई) में प्रस्तुत एक सहकर्मी-समीक्षित पेपर में इलास्टिकडिफ्यूजन नामक नए दृष्टिकोण का वर्णन किया।कंप्यूटर विजन और पैटर्न पहचान (सीवीपीआर) पर 2024 सम्मेलनसिएटल में।

हाजी अली ने कहा, "स्टेबल डिफ्यूजन, मिडजर्नी और डीएएलएल-ई जैसे डिफ्यूजन मॉडल प्रभावशाली परिणाम देते हैं, काफी जीवंत और फोटोरिअलिस्टिक छवियां उत्पन्न करते हैं।""लेकिन उनमें एक कमजोरी है: वे केवल वर्गाकार छवियां उत्पन्न कर सकते हैं। इसलिए, ऐसे मामलों में जहां आपके पास अलग-अलग पहलू अनुपात हैं, जैसे मॉनिटर या स्मार्टवॉच पर ... यहीं ये मॉडल समस्याग्रस्त हो जाते हैं।"

यदि आप स्टेबल डिफ्यूजन जैसे मॉडल को एक गैर-वर्ग छवि बनाने के लिए कहते हैं, मान लीजिए कि 16:9 पहलू अनुपात, तो उत्पन्न छवि को बनाने के लिए उपयोग किए जाने वाले तत्व दोहराए जाते हैं।वह पुनरावृत्ति छवि या छवि विषयों में अजीब दिखने वाली विकृतियों के रूप में दिखाई देती है, जैसे छह उंगलियों वाले लोग या अजीब लम्बी कार।

Rice research could make weird AI images a thing of the past
मोय्यद हाजी अली, राइस यूनिवर्सिटी के कंप्यूटर विज्ञान डॉक्टरेट छात्र, अपना काम प्रस्तुत करते हैं, सीवीपीआर में अपना पोस्टर प्रस्तुत करते हैं। क्रेडिट: विसेंट ऑर्डनेज़-रोमन/राइस यूनिवर्सिटी

जिस तरह से इन मॉडलों को प्रशिक्षित किया जाता है वह भी समस्या में योगदान देता है।

"यदि आप मॉडल को केवल उन छवियों पर प्रशिक्षित करते हैं जो एक निश्चित रिज़ॉल्यूशन वाली हैं, तो वे केवल उसी रिज़ॉल्यूशन वाली छवियां उत्पन्न कर सकते हैं," कंप्यूटर विज्ञान के एसोसिएट प्रोफेसर विसेंट ऑर्डनेज़-रोमन ने कहा, जिन्होंने हाजी अली को गुहा के साथ उनके काम पर सलाह दी थी।बालाकृष्णन, इलेक्ट्रिकल और कंप्यूटर इंजीनियरिंग के सहायक प्रोफेसर।

ऑर्डनेज़-रोमन ने बताया कि यह एआई के लिए एक स्थानिक समस्या है जिसे ओवरफिटिंग के रूप में जाना जाता है, जहां एक एआई मॉडल जिस पर प्रशिक्षित किया गया था, उसके समान डेटा उत्पन्न करने में अत्यधिक अच्छा हो जाता है, लेकिन उन मापदंडों से बहुत दूर नहीं जा सकता है।

ऑर्डनेज़-रोमन ने कहा, "आप विभिन्न प्रकार की छवियों पर मॉडल को प्रशिक्षित करके इसे हल कर सकते हैं, लेकिन यह महंगा है और इसके लिए भारी मात्रा में कंप्यूटिंग शक्ति - सैकड़ों, शायद हजारों ग्राफिक्स प्रोसेसिंग इकाइयों की आवश्यकता होती है।"

हाजी अली के अनुसार, प्रसार मॉडल द्वारा उपयोग किए जाने वाले डिजिटल शोर को दो डेटा प्रकारों के साथ सिग्नल में अनुवादित किया जा सकता है: स्थानीय और वैश्विक।स्थानीय सिग्नल में पिक्सेल-स्तरीय विस्तृत जानकारी होती है जैसे आंख का आकार या कुत्ते के फर की बनावट।वैश्विक सिग्नल में छवि की समग्र रूपरेखा अधिक होती है।

Rice research could make weird AI images a thing of the past
बाईं ओर का चित्र एक मानक विधि द्वारा तैयार किया गया था जबकि दाईं ओर का चित्र इलास्टिकडिफ्यूजन द्वारा तैयार किया गया था।दोनों छवियों का संकेत था, नीले और भूरे रंग की पोशाक में एक प्यारे वैज्ञानिक उल्लू के चित्र की कल्पना करें जो उनकी नवीनतम खोज की घोषणा कर रहा हो।उसकी आंखें हल्की भूरी हैं.उनकी पोशाक सरल लेकिन गरिमापूर्ण है। क्रेडिट: मोय्यद हाजी अली/राइस यूनिवर्सिटी

ऑर्डनेज़-रोमन में शामिल होने से पहले एआई-जनरेटेड वीडियो में गति को संश्लेषित करने पर काम करने वाले हाजी अली ने कहा, "एक कारण है कि प्रसार मॉडल को गैर-वर्ग पहलू अनुपात के साथ मदद की ज़रूरत है क्योंकि वे आम तौर पर स्थानीय और वैश्विक जानकारी को एक साथ पैकेज करते हैं।"अनुसंधान समूहअपनी पीएच.डी. के लिए राइस में।अध्ययन करते हैं।"जब मॉडल एक गैर-वर्ग छवि में अतिरिक्त स्थान के लिए उस डेटा को डुप्लिकेट करने का प्रयास करता है, तो इसके परिणामस्वरूप दृश्य संबंधी खामियां होती हैं।"

हाजी अली के पेपर में इलास्टिकडिफ्यूजन विधि एक छवि बनाने के लिए एक अलग दृष्टिकोण अपनाती है।दोनों संकेतों को एक साथ पैक करने के बजाय, इलास्टिक डिफ्यूजन स्थानीय और वैश्विक संकेतों को सशर्त और बिना शर्त पीढ़ी पथों में अलग करता है।यह बिना शर्त मॉडल से सशर्त मॉडल को घटाता है, एक स्कोर प्राप्त करता है जिसमें वैश्विक छवि जानकारी होती है।

उसके बाद, स्थानीय पिक्सेल-स्तरीय विवरण के साथ बिना शर्त पथ को चतुर्भुज में छवि पर लागू किया जाता है, विवरण को एक समय में एक वर्ग में भरते हुए।वैश्विक जानकारी - छवि पहलू अनुपात क्या होना चाहिए और छवि क्या है (एक कुत्ता, दौड़ता हुआ व्यक्ति, आदि) - अलग रहती है, इसलिए एआई द्वारा संकेतों को भ्रमित करने और डेटा को दोहराने की कोई संभावना नहीं है।पहलू अनुपात की परवाह किए बिना परिणाम एक स्वच्छ छवि है जिसके लिए अतिरिक्त प्रशिक्षण की आवश्यकता नहीं है।

ऑर्डनेज़-रोमन ने कहा, "यह दृष्टिकोण मॉडल के मध्यवर्ती प्रतिनिधित्व का लाभ उठाकर उन्हें बढ़ाने का एक सफल प्रयास है ताकि आपको वैश्विक स्थिरता मिल सके।"

अन्य प्रसार मॉडलों की तुलना में इलास्टिकडिफ्यूजन का एकमात्र दोष समय है।वर्तमान में, हाजी अली की छवि बनाने की विधि में 6-9 गुना अधिक समय लगता है।लक्ष्य इसे स्टेबल डिफ्यूजन या DALL-E जैसे अन्य मॉडलों के समान अनुमान समय तक कम करना है।

"मैं उम्मीद कर रहा हूं कि यह शोध यह परिभाषित करने के लिए है कि क्यों प्रसार मॉडल इन अधिक दोहराव वाले हिस्सों को उत्पन्न करते हैं और इन बदलते पहलू अनुपातों को अनुकूलित नहीं कर सकते हैं और एक ऐसे ढांचे के साथ आते हैं जो किसी भी पहलू अनुपात की परवाह किए बिना बिल्कुल अनुकूलित हो सकता हैप्रशिक्षण, उसी अनुमान समय पर," हाजी अली ने कहा।

अधिक जानकारी:इलास्टिकडिफ्यूजन: वैश्विक-स्थानीय सामग्री पृथक्करण के माध्यम से प्रशिक्षण-मुक्त मनमाने आकार की छवि निर्माण, कंप्यूटर विज़न और पैटर्न पहचान 2024 पर आईईईई/सीवीएफ सम्मेलन। लेखक: मोयद हाजी-अली, गुहा बालकृष्णन और विसेंट ऑर्डोनेज़-रोमन,cvpr.thecvf.com/

प्रोजेक्ट पेज:इलास्टिकडिफ्यूजन.github.io/

प्रोजेक्ट डेमो:replication.com/moayedhajiali/elasticdiffusion

परियोजना का कोड:github.com/MoayedHajiAli/ElasticDifuse-official

उद्धरण:नया शोध अजीब एआई छवियों को अतीत की बात बना सकता है (2024, 15 सितंबर)15 सितंबर 2024 को पुनः प्राप्तhttps://techxplore.com/news/2024-09-rice-weird-ai-images.html से

यह दस्तावेज कॉपीराइट के अधीन है।निजी अध्ययन या अनुसंधान के उद्देश्य से किसी भी निष्पक्ष व्यवहार के अलावा, नहींलिखित अनुमति के बिना भाग को पुन: प्रस्तुत किया जा सकता है।सामग्री केवल सूचना के प्रयोजनों के लिए प्रदान की गई है।