Artificial intelligence trained to draw inspiration from images, not copy them
श्रेय: जियानिस दारा, https://github.com/giannisdaras/ambient-tweedie

शक्तिशाली नए कृत्रिम बुद्धिमत्ता मॉडल कभी-कभी, काफी प्रसिद्ध रूप से, चीजों को गलत कर देते हैं - चाहे वह गलत जानकारी का भ्रम हो या दूसरों के काम को याद रखना और उसे अपने काम के रूप में प्रस्तुत करना हो।उत्तरार्द्ध को संबोधित करने के लिए, ऑस्टिन में टेक्सास विश्वविद्यालय की एक टीम के नेतृत्व में शोधकर्ताओं ने मान्यता से परे दूषित छवियों पर एआई मॉडल को प्रशिक्षित करने के लिए एक रूपरेखा विकसित की है।

DALL-E, मिडजर्नी और स्टेबल डिफ्यूजन टेक्स्ट-टू-इमेज में से हैंजेनरेटिव एआई मॉडल जो मनमाने उपयोगकर्ता टेक्स्ट को अत्यधिक यथार्थवादी छवियों में बदल सकते हैं।इन तीनों को अब उन कलाकारों के मुकदमों का सामना करना पड़ रहा है जिन्होंने आरोप लगाया है कि तैयार किए गए नमूने उनके काम की नकल करते हैं।अरबों छवि-पाठ जोड़ियों पर प्रशिक्षित, जो सार्वजनिक रूप से उपलब्ध नहीं हैं, मॉडल पाठ्य संकेतों से उच्च-गुणवत्ता वाली इमेजरी उत्पन्न करने में सक्षम हैं, लेकिन कॉपीराइट छवियों पर आकर्षित हो सकते हैं जिन्हें वे फिर दोहराते हैं।

नव प्रस्तावित रूपरेखा, कहा जाता हैपरिवेश प्रसार, केवल दूषित छवि-आधारित डेटा तक पहुंच के माध्यम से प्रसार मॉडल को प्रशिक्षित करके इस समस्या से निपटता है।प्रारंभिक प्रयासों से पता चलता है कि ढांचा मूल स्रोत छवियों के रूप में पहचाने जाने योग्य कुछ भी देखे बिना उच्च गुणवत्ता वाले नमूने उत्पन्न करना जारी रखने में सक्षम है।

एंबिएंट डिफ्यूज़न को मूल रूप से 2023 में एक मशीन-लर्निंग कॉन्फ्रेंस, न्यूरआईपीएस में प्रस्तुत किया गया था और तब से इसे अनुकूलित और विस्तारित किया गया है।अनुवर्ती पेपर, "लगातार प्रसार ट्वीडी से मिलता है,'' पर उपलब्ध हैarXivप्रीप्रिंट सर्वर को स्वीकार कर लिया गयामशीन लर्निंग पर 2024 अंतर्राष्ट्रीय सम्मेलन.मैसाचुसेट्स इंस्टीट्यूट ऑफ टेक्नोलॉजी के कॉन्स्टेंटिनो डस्कलाकिस के सहयोग से, टीम ने केवल मास्किंग पिक्सल के बजाय अन्य प्रकार के शोर से दूषित छवियों के डेटा सेट और बड़े डेटा सेट पर प्रसार मॉडल को प्रशिक्षित करने के लिए रूपरेखा का विस्तार किया।

"यह रूपरेखा वैज्ञानिक और के लिए उपयोगी साबित हो सकती है, भी,'' कंप्यूटर विज्ञान के प्रोफेसर, एडम क्लिवन्स, जो इस काम में शामिल थे, ने कहा। ''यह मूल रूप से किसी भी शोध के लिए सच होगा जहां ब्लैक होल इमेजिंग से लेकर असंदूषित डेटा का पूरा सेट रखना महंगा या असंभव है।कुछ प्रकार के एमआरआई स्कैन।"

क्लिवांस;एलेक्स डिमाकिस, इलेक्ट्रिकल और कंप्यूटर इंजीनियरिंग के प्रोफेसर;और दो यूटी संकाय सदस्यों द्वारा निर्देशित मल्टी-इंस्टीट्यूशन इंस्टीट्यूट फॉर फ़ाउंडेशन ऑफ़ मशीन लर्निंग में अन्य सहयोगियों ने पहले मशहूर हस्तियों की 3,000 छवियों के सेट पर एक प्रसार मॉडल का प्रशिक्षण देकर प्रयोग किया, फिर नए नमूने उत्पन्न करने के लिए उस मॉडल का उपयोग किया।

प्रयोग में, स्वच्छ डेटा पर प्रशिक्षित प्रसार मॉडल ने प्रशिक्षण उदाहरणों की स्पष्ट रूप से नकल की।लेकिन जब शोधकर्ताओं ने प्रशिक्षण डेटा को दूषित कर दिया, एक छवि में 90% व्यक्तिगत पिक्सेल को बेतरतीब ढंग से छिपा दिया, और अपने नए दृष्टिकोण के साथ मॉडल को फिर से प्रशिक्षित किया, तो उत्पन्न नमूने उच्च गुणवत्ता वाले रहे लेकिन बहुत अलग दिखे।मॉडल अभी भी मानवीय चेहरे उत्पन्न कर सकता है, लेकिन उत्पन्न चेहरे प्रशिक्षण छवियों से काफी अलग हैं।

इस कार्य का नेतृत्व करने वाले कंप्यूटर विज्ञान स्नातक छात्र जियानिस डारस ने कहा, "हमारा ढांचा याद रखने और प्रदर्शन के बीच व्यापार-बंद को नियंत्रित करने की अनुमति देता है।""जैसे-जैसे प्रशिक्षण के दौरान भ्रष्टाचार का स्तर बढ़ता है, याद रखनाप्रशिक्षणशोधकर्ताओं ने कहा कि यह एक ऐसे समाधान की ओर इशारा करता है, जो भले ही प्रदर्शन को बदल सकता है, लेकिन शोर कभी नहीं पैदा करेगा।

रूपरेखा इसका एक उदाहरण प्रस्तुत करती है कि कैसेआगे बढ़ रहे हैंसामाजिक जरूरतों को पूरा करना, ऑस्टिन में टेक्सास विश्वविद्यालय में इस वर्ष का एक प्रमुख विषय है, जिसने 2024 को "एआई का वर्ष" घोषित किया है।

अनुसंधान दल में कैलिफोर्निया विश्वविद्यालय, बर्कले और एमआईटी के सदस्य शामिल थे।

अधिक जानकारी:जियानिस डारस एट अल, कंसिस्टेंट डिफ्यूजन मीट ट्वीडी: शोर डेटा के साथ सटीक परिवेश डिफ्यूजन मॉडल का प्रशिक्षण,arXiv(2024)।डीओआई: 10.48550/arxiv.2404.10177

जर्नल जानकारी: arXiv

उद्धरण:एआई को छवियों से प्रेरणा लेने के लिए प्रशिक्षित किया गया, न कि उनकी नकल करने के लिए (2024, 20 मई)20 मई 2024 को पुनःप्राप्तhttps://techxplore.com/news/2024-05-ai-images.html से

यह दस्तावेज कॉपीराइट के अधीन है।निजी अध्ययन या अनुसंधान के उद्देश्य से किसी भी निष्पक्ष व्यवहार के अलावा, नहींलिखित अनुमति के बिना भाग को पुन: प्रस्तुत किया जा सकता है।सामग्री केवल सूचना के प्रयोजनों के लिए प्रदान की गई है।