एआई शोधकर्ता गणित और तर्क में चैटजीपीटी की प्रगति के नए संस्करण पर चर्चा करता है

2024-09-18 14:19:39

12 सितंबर को, ओपनएआई ने एक नए चैटजीपीटी मॉडल की घोषणा की, जिसके बारे में कंपनी का कहना है कि यह पिछले संस्करणों की तुलना में गणित और विज्ञान में काफी बेहतर है, जो तर्क के साथ संघर्ष करता है।पहले के मॉडल ने अंतर्राष्ट्रीय गणितीय ओलंपियाड (शीर्ष हाई स्कूल गणित प्रतियोगिता) के लिए योग्यता परीक्षा में केवल 13% अंक प्राप्त किए थे।नए मॉडल, जिसे "ओ1" कहा जाता है, ने उस स्कोर को 83% तक बढ़ा दिया।

equations — श्रेय: अनस्प्लैश/CC0 पब्लिक डोमेन

12 सितंबर को, OpenAIकी घोषणा कीकंपनी का कहना है कि नया चैटजीपीटी मॉडल पिछले संस्करणों की तुलना में गणित और विज्ञान में काफी बेहतर है, जो तर्क के साथ संघर्ष करता है।पहले के मॉडल ने अंतर्राष्ट्रीय गणितीय ओलंपियाड (शीर्ष हाई स्कूल गणित प्रतियोगिता) के लिए योग्यता परीक्षा में केवल 13% अंक प्राप्त किए थे।नए मॉडल, जिसे "ओ1" कहा जाता है, ने उस स्कोर को 83% तक बढ़ा दिया।

वाशिंगटन विश्वविद्यालय के पॉल जी. एलन स्कूल ऑफ कंप्यूटर साइंस एंड इंजीनियरिंग में पोस्टडॉक्टरल विद्वान नीलोफर मिरेश्घल्लाह, चैटजीपीटी जैसे बड़े भाषा मॉडल की गोपनीयता और सामाजिक निहितार्थ का अध्ययन करते हैं।

UW न्यूज़ ने उनसे इस बारे में बात की कि ऐसा क्यों हैगणितऔर तर्क ने इन कृत्रिम बुद्धिमत्ता मॉडलों को बहुत चुनौती दी है और जनता को OpenAI की नई रिलीज़ के बारे में क्या जानना चाहिए।

चैटजीपीटी और अन्य एलएलएमआगे कौन सा शब्द आएगा इसकी भविष्यवाणी करके काम करेंबड़े प्रवाह के साथ.एलएलएम के लिए गणित और तर्क इतना कठिन क्यों है?

दो मुख्य कारण हैं।एक यह है कि जब मॉडल अगले शब्द की भविष्यवाणी करता है तो नियमों और सिद्धांतों का "पता लगाना" कठिन होता है।आपको गणित करने के लिए थोड़ा आगे-पीछे जाने और निष्कर्ष निकालने की आवश्यकता है।अधिक तार्किक या सामान्य ज्ञान के तर्क के संबंध में, कठिनाई का एक अन्य कारण यह है कि, जैसा कि मेरे सलाहकार येजिन चोई कहते हैं,सामान्य ज्ञान डार्क मैटर की तरह है.यह वहां है, लेकिन हम इसे देखते या कहते नहीं हैं।

हम जानते हैं कि फ्रिज का दरवाज़ा खुला नहीं छोड़ना चाहिए, लेकिन ऐसा कहने वाले बहुत कम पाठ हैं।यदि किसी चीज़ के लिए कोई टेक्स्ट नहीं है, तो मॉडल उसे नहीं उठाएंगे।उसके लिए भी यहीसामाजिक आदर्शया तर्क के अन्य रूप!

ओपनएआई के मुख्य वैज्ञानिक जैकब पचॉकी ने बतायान्यूयॉर्क टाइम्स: 'यह मॉडल अपना समय ले सकता है।यह समस्या के बारे में अंग्रेजी में सोच सकता है, इसे तोड़ने का प्रयास कर सकता है और सर्वोत्तम उत्तर प्रदान करने के प्रयास में कोणों की तलाश कर सकता है।'क्या यह एक बड़ा बदलाव है?क्या यह नया मॉडल 'सोच' के करीब कुछ कर रहा है?

यह संपूर्ण "अपना समय लें" जो हो रहा है उसका सरलीकरण है, जिसे हम "परीक्षण-समय की गणना।" अब तक, बड़ी कंपनियाँ मॉडल और प्रशिक्षण डेटा दोनों का आकार बढ़ाकर मॉडल बनाती थीं। लेकिन कंपनियाँ वहाँ एक संतृप्ति तक पहुँच गई होंगी - क्योंकि, इससे अधिक पूर्व नहीं है-प्रशिक्षण डेटा, और मॉडलों का आकार बढ़ाने से हमें अधिक मदद नहीं मिल सकती है।परीक्षण समय में यह निवेश मॉडल को आंतरिक तर्क करने में मदद करता है, इसलिए यह समस्याओं को विघटित करने और कई पुनरावृत्तियों को करने का प्रयास कर सकता है।

इसे चेन-ऑफ-थॉट रीजनिंग कहा जाता है, जो आपके काम को गणित की समस्या में दिखाने जैसा है, लेकिन भाषा और सोच के कार्यों के लिए।केवल अंतिम उत्तर देने के बजाय, एआई चरण दर चरण काम करता है, अपनी तर्क प्रक्रिया के प्रत्येक चरण को लिखता है।

कल्पना कीजिए कि आपसे एक शब्द समस्या हल करने के लिए कहा गया है: "यदि सैली के पास 3 सेब हैं और वह अपनी सहेली को 2 सेब देती है, तो उसके पास कितने सेब बचे हैं?"एक सामान्य AI प्रतिक्रिया बस यही कह सकती है, "1 सेब।"

लेकिन विचार-श्रृंखला तर्क के साथ, यह इस तरह दिखेगा:

सैली की शुरुआत 3 सेबों से होती है
वह 2 सेब देती है
यह पता लगाने के लिए कि कितने बचे हैं, हम घटाते हैं: 3â2 = 1
इसलिए, सैली के पास 1 सेब बचा है

यह चरण-दर-चरण प्रक्रिया कुछ मायनों में मदद करती है: यह एआई के तर्क को अधिक पारदर्शी बनाती है, ताकि हम देख सकें कि यह अपने उत्तर पर कैसे पहुंचा और, गलती के मामले में, संभावित रूप से पता लगा सकता है कि चीजें कहां गलत हुईं।

विचार-श्रृंखला तर्क अधिक जटिल कार्यों के लिए विशेष रूप से उपयोगी है, जैसे बहु-चरणीय प्रश्नों का उत्तर देना, गणित की समस्याओं को हल करना या उन स्थितियों का विश्लेषण करना जिनके लिए कई तार्किक चरणों की आवश्यकता होती है।

एक अर्थ में, मॉडल केवल अगले-शब्द की भविष्यवाणी करने के विपरीत, अपनी प्रतिक्रिया का परीक्षण कर सकता है।पहले एक समस्या यह थी कि यदि कोई मॉडल एक शब्द की भी गलत भविष्यवाणी करता था, तो उसे प्रतिबद्ध होना पड़ता था, और वह पटरी से उतर जाता था क्योंकिइसकी निम्नलिखित सभी भविष्यवाणियाँ आंशिक रूप से उस गलत भविष्यवाणी पर आधारित हैं.

विचार-श्रृंखला तर्क और प्रतिक्रिया पीढ़ी का यह रूप मानव सोच की अब तक की सबसे निकटतम प्रक्रिया है।हम पूरी तरह से आश्वस्त नहीं हैं कि यह आंतरिक कैसे हैतर्कपूरी तरह से काम करता है, लेकिन अब मॉडल को अपनी प्रतिक्रिया का परीक्षण करने में समय लग सकता है।शोधकर्ताओं ने मॉडलों को अपनी गलतियाँ ढूंढ़ते हुए और कई विकल्प दिए जाने पर अपनी स्वयं की प्रतिक्रियाओं को क्रमबद्ध करते हुए दिखाया है।

उदाहरण के लिए, ए मेंहालिया पेपर[को पोस्ट किया गयाarXivप्रीप्रिंट सर्वर], हमने दिखाया कि प्रतिक्रिया उत्पन्न करते समय एलएलएम जन्मदिन के आश्चर्य को खराब कर देंगे, लेकिन जब पूछा जाएगा कि क्या उनकी प्रतिक्रिया उचित है, तो उन्हें गलती का एहसास होगा।इसलिए यह स्व-परीक्षण मॉडल को अधिक तार्किक प्रतिक्रिया देने में मदद कर सकता है।

जब कंपनियां इस तरह नए एआई मॉडल की घोषणा करती हैं तो लोगों को क्या जानना चाहिए और किस पर ध्यान देना चाहिए?

मुझे लगता है कि एक बात जिससे लोगों को सावधान रहना चाहिए वह है मॉडल आउटपुट की तथ्य-जांच करना, और मॉडल की "सोच" और अपना समय लेने से मूर्ख नहीं बनना।हां, हमें बेहतर प्रतिक्रियाएं मिल रही हैं, लेकिनअभी भी विफलता मोड मौजूद हैं.

अधिक जानकारी:निलोफ़र मिरेश्घल्लाह और अन्य, क्या एलएलएम कोई रहस्य रख सकते हैं?प्रासंगिक अखंडता सिद्धांत के माध्यम से भाषा मॉडल के गोपनीयता निहितार्थ का परीक्षण,arXiv(2023)।डीओआई: 10.48550/arxiv.2310.17884

जर्नल जानकारी: arXiv

उद्धरण:एआई शोधकर्ता ने गणित और तर्क में चैटजीपीटी की प्रगति के नए संस्करण पर चर्चा की (2024, 18 सितंबर)18 सितंबर 2024 को पुनः प्राप्तhttps://techxplore.com/news/2024-09-ai-discusses-version-chatgpt-advances.html से

यह दस्तावेज कॉपीराइट के अधीन है।निजी अध्ययन या अनुसंधान के उद्देश्य से किसी भी निष्पक्ष व्यवहार के अलावा, नहींलिखित अनुमति के बिना भाग को पुन: प्रस्तुत किया जा सकता है।सामग्री केवल सूचना के प्रयोजनों के लिए प्रदान की गई है।

अन्य भाषा संस्करण भी देखें: English | 简中 | 正體 | 日本語 | 한국인 | हिंदी | Español