Can advanced AI can solve visual puzzles and perform abstract reasoning?
IQ50 डेटासेट से एक नमूने पर मॉडल की भविष्यवाणी का एक उदाहरण।एक दृश्य पहेली (शीर्ष) के साथ एक संकेत दिए जाने पर, मॉडल एक प्रतिक्रिया उत्पन्न करता है जिसमें उसका तर्क और चुना हुआ विकल्प शामिल होता है।श्रेय:arXiv(2024)।डीओआई: 10.48550/arxiv.2401.12117

आर्टिफिशियल इंटेलिजेंस ने भाषा में महारत हासिल करना, कला उत्पन्न करना और यहां तक ​​कि शतरंज में ग्रैंडमास्टरों को हराना सीख लिया है।लेकिन क्या यह अमूर्त तर्क के कोड को तोड़ सकता है - उन पेचीदा दृश्य पहेलियों को जो इंसानों को अपना सिर खुजलाने पर मजबूर कर देते हैं?

यूएससी विटर्बी स्कूल ऑफ इंजीनियरिंग इंफॉर्मेशन साइंसेज इंस्टीट्यूट (आईएसआई) के शोधकर्ता एआई की संज्ञानात्मक क्षमताओं का परीक्षण कर रहे हैं, मानव आईक्यू परीक्षणों के लिए आरक्षित दृश्य समस्याओं को हल करने के लिए मल्टी-मोडल बड़े भाषा मॉडल (एमएलएलएम) को आगे बढ़ा रहे हैं।नतीजा?एआई कितनी दूर तक आ गया है और यह अभी भी कहाँ लड़खड़ा रहा है, इसकी एक झलक।

यूएससी विटरबी आईएसआई अनुसंधान सहायक कियान अहराबियन और ज़ीवर सौराती ने हाल ही में जांच की कि क्या एमएलएलएम अशाब्दिक सार प्रदर्शन कर सकते हैं, ऐसे कार्य जिनमें दोनों की आवश्यकता होती हैऔर तार्किक तर्क, और भाषा मॉडलिंग पर सम्मेलन में अपने निष्कर्ष प्रस्तुत किए (सीओएलएम 2024) फिलाडेल्फिया, पीए में 7-9 अक्टूबर, 2024। काम भी हैउपलब्धपरarXivप्रीप्रिंट सर्वर.

यूएससी विटर्बी स्कूल ऑफ इंजीनियरिंग में कंप्यूटर साइंस के रिसर्च एसोसिएट प्रोफेसर और पेपर के लेखक जय पुजारा ने कहा, "हर दिन हम नई सुर्खियों से घिरे रहते हैं कि एआई क्या कर सकता है (और क्या नहीं), जो अक्सर बहुत ही खतरनाक होते हैं।"आश्चर्य की बात है। हमारे पास अभी भी इस बात की सीमित समझ है कि नए एआई मॉडल क्या कर सकते हैं, और जब तक हम इन सीमाओं को नहीं समझते हैं तब तक हम एआई को बेहतर, सुरक्षित और अधिक उपयोगी नहीं बना सकते हैं। यह पेपर कहानी के एक छूटे हुए हिस्से को भरने में मदद करता हैएआई संघर्ष करता है।"

चुनौती: क्या AI देख और सोच सकता है?

"हम यह देखना चाहते थे कि क्या बड़े मॉडलों की यह नई पीढ़ी, जो छवियों को संसाधित करने में सक्षम है, अपने दम पर तर्क कर सकती है," अहराबियन ने समझाया।"उदाहरण के लिए, यदि आप एक पीले वृत्त को नीले त्रिकोण में बदलते हुए देखते हैं, तो क्या मॉडल एक अलग परिदृश्य में समान पैटर्न लागू कर सकता है?"

इस प्रश्न का उत्तर देने के लिए, टीम ने रेवेन के प्रोग्रेसिव मैट्रिसेस पर आधारित पहेलियों पर 24 अलग-अलग एमएलएलएम का परीक्षण किया, जो अमूर्त तर्क का एक प्रसिद्ध परीक्षण है।उन्होंने पाया कि ओपन-सोर्स मॉडल को काफी संघर्ष करना पड़ा।अहराबियन ने स्पष्ट रूप से कहा, "वे वास्तव में बुरे थे। वे इससे कुछ भी हासिल नहीं कर सके।"

इसके विपरीत, बंद-स्रोत मॉडल, जैसे GPT-4V-निजी कंपनियों द्वारा विकसित मॉडल और संशोधन के लिए सार्वजनिक रूप से उपलब्ध नहीं हैं-ने बेहतर प्रदर्शन किया।इन मॉडलों को आम तौर पर अधिक उन्नत संसाधनों के साथ प्रशिक्षित किया जाता है, जिसमें बड़े डेटासेट और अधिक शक्तिशाली कंप्यूटिंग सिस्टम शामिल होते हैं, जो उन्हें ध्यान देने योग्य बढ़त देते हैं।"हमने बंद-स्रोत मॉडल के साथ कुछ गैर-तुच्छ परिणाम देखे," अहराबियन ने कहा, "विशेष रूप से, GPT-4V तर्क करने में अपेक्षाकृत अच्छा था, लेकिन यह एकदम सही से बहुत दूर है।"

जहां AI लड़खड़ाता है

अध्ययन के एक महत्वपूर्ण भाग में यह विश्लेषण करना शामिल था कि ये मॉडल कहाँ विफल हो रहे थे।एक प्रमुख मुद्दा एआई की दृश्य जानकारी को सटीक रूप से संसाधित करने की क्षमता थी।अहराबियन ने कहा, "हम जानना चाहते थे कि क्या मॉडल विवरणों को देख सकते हैं - जैसे कि रंग या रेखाएं टकराते हुए - और क्या यहीं वे गलत हो रहे थे।"

समस्या को अलग करने के लिए, शोधकर्ताओं ने छवियों का विस्तृत पाठ्य विवरण प्रदान किया, यह सुनिश्चित करते हुए कि मॉडलों में एक अलग प्रारूप में सभी आवश्यक जानकारी थी "यहां तक ​​​​कि जब हमने दृश्य तत्व को हटा दिया और उन्हें केवल पाठ दिया, तब भी कई मॉडल प्रभावी ढंग से तर्क नहीं कर सके,सौराती ने समझाया।

इससे एक महत्वपूर्ण अंतर्दृष्टि का पता चला: मुद्दा केवल दृश्य प्रसंस्करण के साथ नहीं था, बल्कि तर्क के साथ भी था।अब, टीम के पास इस बात की स्पष्ट तस्वीर थी कि क्या काम नहीं कर रहा था, जिससे उन्हें अपना ध्यान केंद्रित करने और भविष्य में सुधारों का मार्गदर्शन करने की अनुमति मिली।

आगे का रास्ता: एआई के तर्क में सुधार

शोधकर्ताओं द्वारा खोजा गया एक आशाजनक तरीका "चेन ऑफ़ थॉट प्रॉम्प्टिंग" था, जहां एआई को तर्क कार्यों के माध्यम से कदम दर कदम सोचने के लिए प्रेरित किया जाता है।इस दृष्टिकोण से कुछ मामलों में महत्वपूर्ण सुधार हुए।अहराबियन ने कहा, "संकेतों के साथ मॉडलों का मार्गदर्शन करके, हम प्रदर्शन में 100% तक सुधार देखने में सक्षम थे।"

शेष चुनौतियों के बावजूद, शोधकर्ता आशावादी हैं।अध्ययन के निष्कर्ष एआई की वर्तमान सीमाओं और भविष्य की प्रगति की रोमांचक संभावनाओं दोनों पर प्रकाश डालते हैं।जैसे-जैसे ये मॉडल विकसित होते जा रहे हैं, यूएससी का शोध एआई के लिए मार्ग प्रशस्त कर सकता है जो न केवल मशीन इंटेलिजेंस और मानव अनुभूति के बीच की रेखा को समझने बल्कि कारणों को भी समझने में सक्षम होगा।

अधिक जानकारी:कियान अहराबियन और अन्य, मल्टी-मोडल बड़े भाषा मॉडल के साथ गैर-मौखिक सार तर्क का जिज्ञासु मामला,arXiv(2024)।डीओआई: 10.48550/arxiv.2401.12117

जर्नल जानकारी: arXiv

उद्धरण:क्या उन्नत AI दृश्य पहेलियों को हल कर सकता है और अमूर्त तर्क कर सकता है?(2024, 9 अक्टूबर)9 अक्टूबर 2024 को पुनः प्राप्तhttps://techxplore.com/news/2024-10-advanced-ai-visual-puzzles-abstract.html से

यह दस्तावेज कॉपीराइट के अधीन है।निजी अध्ययन या अनुसंधान के उद्देश्य से किसी भी निष्पक्ष व्यवहार के अलावा, नहींलिखित अनुमति के बिना भाग को पुन: प्रस्तुत किया जा सकता है।सामग्री केवल सूचना के प्रयोजनों के लिए प्रदान की गई है।