के रिलीज़ होने तक के सप्ताहों मेंOpenAI का नवीनतम 'तर्क' मॉडल, o1, स्वतंत्र एआई सुरक्षा अनुसंधान फर्म अपोलो को एक उल्लेखनीय मुद्दा मिला।अपोलो को एहसास हुआ कि मॉडल गलत आउटपुट उत्पन्न कर रहा है एक नये तरीके से.या, अधिक बोलचाल की भाषा में कहें तो, यह झूठ बोला गया।

कभी-कभी धोखे अहानिकर लगते थे।एक उदाहरण में, OpenAI शोधकर्ताओं ने o1-पूर्वावलोकन से ऑनलाइन संदर्भों के साथ ब्राउनी रेसिपी प्रदान करने के लिए कहा।मॉडल की विचार श्रृंखला - एक विशेषता जो नकल करती है कि मनुष्य जटिल विचारों को कैसे तोड़ते हैं - आंतरिक रूप से स्वीकार किया गया कि यह यूआरएल तक नहीं पहुंच सका, जिससे अनुरोध असंभव हो गया।उपयोगकर्ता को इस कमजोरी के बारे में सूचित करने के बजाय, o1-पूर्वावलोकन को आगे बढ़ाया गया, जिससे उनके विश्वसनीय लेकिन नकली लिंक और विवरण उत्पन्न हुए।

जबकि एआई मॉडल सक्षम हैंâझूठâ अतीत में, और चैटबॉट अक्सर गलत जानकारी आउटपुट करते हैं, o1 में 'स्कीम' या 'फर्जी संरेखण' करने की एक अद्वितीय क्षमता थी। इसका मतलब था कि यह दिखावा कर सकता है कि यह किसी दिए गए कार्य को पूरा करने के लिए नियमों का पालन कर रहा है, लेकिन यहनहीं हैवास्तव में.मॉडल के लिए, नियम बहुत अधिक बोझिल हो सकते हैं, और ऐसा लगता है कि अगर इसका मतलब है कि यह किसी कार्य को अधिक आसानी से पूरा कर सकता है तो इसमें उनकी उपेक्षा करने की क्षमता है।

अपोलो के सीईओ मारियस हॉबहैन बताते हैंद वर्जयह पहली बार है जब उसे OpenAI मॉडल में इस व्यवहार का सामना करना पड़ा।हॉबहैन का कहना है कि यह अंतर इस मॉडल की विचार प्रक्रिया की श्रृंखला और उसके तरीके के माध्यम से 'तर्क' करने की क्षमता के कारण है।बनतीसुदृढीकरण सीखने के साथ, जो पुरस्कार और दंड के माध्यम से प्रणाली को सिखाता है। परीक्षण के दौरान, अपोलो ने पाया कि एआई ने अपने डेवलपर्स की अपेक्षाओं के साथ संरेखण का अनुकरण किया और अनुपालन में दिखने के लिए कार्यों में हेरफेर किया।इसने कार्रवाई करने से पहले अपने सिस्टम की निगरानी के लिए जाँच भी की - यानी, क्या इसके डेवलपर देख रहे थे।संक्षेप में, एआई ने अपने उद्देश्यों को प्राथमिकता देना जारी रखते हुए तैनाती के लिए दिशानिर्देशों का पर्याप्त रूप से पालन किया।

क्या आप OpenAI में काम करते हैं?मुझे चैट करना अच्छा लगेगा।आप सिग्नल @kylie.01 पर या kylie@theverge.com पर ईमेल के माध्यम से मुझ तक सुरक्षित रूप से पहुंच सकते हैं।

âमुझे उम्मीद नहीं है कि यह व्यवहार में ऐसा कर सकता है, और अगर ऐसा हुआ भी, तो मुझे उम्मीद नहीं है कि नुकसान महत्वपूर्ण होगा,'' मॉडल के एक दिन बाद हॉबहैन ने मुझे फोन पर बताया।का प्रक्षेपण.âलेकिन यह पहली बार है कि मुझे ऐसा लग रहा है, ओह, वास्तव में, शायद ऐसा हो सकता है, आप जानते हैं?â

OpenAI के लिए, o1 अत्यधिक बुद्धिमान स्वायत्त प्रणालियों की दिशा में एक बड़े कदम का प्रतिनिधित्व करता है जो मानवता के लिए कैंसर का इलाज और जलवायु अनुसंधान में सहायता जैसे सार्थक कार्य कर सकता है।इस एजीआई यूटोपिया का दूसरा पक्ष भी अधिक गहरा हो सकता है।हॉबहैन एक उदाहरण प्रदान करता है: यदि एआई पूरी तरह से कैंसर के इलाज पर केंद्रित हो जाता है, तो यह उस लक्ष्य को अन्य सभी से ऊपर प्राथमिकता दे सकता है, यहां तक ​​कि इसे प्राप्त करने के लिए चोरी करने या अन्य नैतिक उल्लंघन करने जैसे कार्यों को भी उचित ठहरा सकता है।

âमुझे चिंता इस बात की है कि भगोड़े परिदृश्य की संभावना है, जहां एआई अपने लक्ष्य पर इतना केंद्रित हो जाता है कि वह सुरक्षा उपायों को बाधाओं के रूप में देखता है और अपने उद्देश्य को पूरी तरह से हासिल करने के लिए उन्हें बायपास करने की कोशिश करता है,'' होबभन ने मुझे बताया।

इनाम हैकिंग

स्पष्ट रूप से कहें तो, हॉब्हैन को नहीं लगता कि ढेर सारे संरेखण प्रशिक्षण के कारण ओ1 आपसे चोरी करेगा।लेकिन ये वे मुद्दे हैं जो विनाशकारी परिदृश्यों के लिए इन मॉडलों का परीक्षण करने वाले शोधकर्ताओं के दिमाग में सबसे ऊपर हैं।

अपोलो 'मतिभ्रम' और 'धोखा' के लिए जिस व्यवहार का परीक्षण कर रहा हैOpenAI के सुरक्षा कार्ड मेंâ तब होता है जब कोई मॉडल गलत जानकारी उत्पन्न करता है, भले ही उसके पास यह अनुमान लगाने का कारण हो कि जानकारी गलत हो सकती है।उदाहरण के लिए, रिपोर्ट में कहा गया है कि लगभग 0.38 प्रतिशत मामलों में, ओ1-पूर्वावलोकन मॉडल ऐसी जानकारी प्रदान करता है जो इसकी विचार श्रृंखला से संकेत मिलता है कि संभवतः गलत है, जिसमें नकली संदर्भ या उद्धरण भी शामिल हैं।अपोलो ने पाया कि मॉडल अनुरोध को पूरा करने में असमर्थता स्वीकार करने के बजाय डेटा गढ़ सकता है।

मतिभ्रम o1 के लिए अद्वितीय नहीं हैं।शायद आप उस वकील से परिचित हों जिसने आवेदन किया थाचैटजीपीटी द्वारा बनाए गए नकली उद्धरणों और उद्धरणों के साथ अस्तित्वहीन न्यायिक रायपिछले साल।लेकिन विचार प्रणाली की श्रृंखला के साथ, एक पेपर ट्रेल है जहां एआई प्रणाली वास्तव में हैमानता हैझूठ - हालांकि कुछ हद तक दिमाग को झुकाने वाला, विचार की श्रृंखला में, सिद्धांत रूप में, धोखे भी शामिल हो सकते हैं।इसे उपयोगकर्ता को भी नहीं दिखाया जाता है, मुख्य रूप से प्रतिस्पर्धा को अपने स्वयं के मॉडल को प्रशिक्षित करने के लिए इसका उपयोग करने से रोकने के लिए - लेकिन ओपनएआई इन मुद्दों को पकड़ने के लिए इसका उपयोग कर सकता है।

âसंभावित रूप से, यह उन लक्ष्यों के लिए इस तर्क का उपयोग करेगा जिनसे हम असहमत हैं।â

कम संख्या में मामलों (0.02 प्रतिशत) में, ओ1-पूर्वावलोकन एक अति आत्मविश्वासपूर्ण प्रतिक्रिया उत्पन्न करता है, जहां यह अनिश्चित उत्तर प्रस्तुत करता है जैसे कि यह सच हो।यह उन परिदृश्यों में हो सकता है जहां मॉडल को निश्चितता की कमी के बावजूद उत्तर देने के लिए प्रेरित किया जाता है।

सुदृढीकरण सीखने की प्रक्रिया के दौरान इस व्यवहार को 'रिवॉर्ड हैकिंग' से जोड़ा जा सकता है।मॉडल को उपयोगकर्ता संतुष्टि को प्राथमिकता देने के लिए प्रशिक्षित किया जाता है, जो कभी-कभी उपयोगकर्ता के अनुरोधों को पूरा करने के लिए अत्यधिक सहमत या मनगढ़ंत प्रतिक्रियाएँ उत्पन्न कर सकता है।दूसरे शब्दों में, मॉडल 'झूठ' बोल सकता है क्योंकि उसने सीखा है कि ऐसा करने से उपयोगकर्ता की अपेक्षाएं एक तरह से पूरी होती हैं जिससे उसे सकारात्मक सुदृढीकरण मिलता है।

जो चीज इन्हें चैटजीपीटी के पुराने संस्करणों में मतिभ्रम या नकली उद्धरण जैसे परिचित मुद्दों से अलग करती है, वह 'इनाम हैकिंग' तत्व है।मतिभ्रम तब होता है जब एआई अनजाने में गलत जानकारी उत्पन्न करता है, अक्सर ज्ञान अंतराल या त्रुटिपूर्ण तर्क के कारण।इसके विपरीत, रिवॉर्ड हैकिंग तब होती है जब ओ1 मॉडल उन परिणामों को अधिकतम करने के लिए रणनीतिक रूप से गलत जानकारी प्रदान करता है जिन्हें प्राथमिकता देने के लिए इसे प्रशिक्षित किया गया था।

यह धोखा स्पष्ट रूप से इस बात का अनपेक्षित परिणाम है कि मॉडल अपनी प्रशिक्षण प्रक्रिया के दौरान अपनी प्रतिक्रियाओं को कैसे अनुकूलित करता है।मॉडल को हानिकारक अनुरोधों को अस्वीकार करने के लिए डिज़ाइन किया गया है, हॉब्हैन ने मुझे बताया, और जब आप o1 को भ्रामक या बेईमानी से व्यवहार करने की कोशिश करते हैं, तो यह उससे संघर्ष करता है।

झूठ सुरक्षा पहेली का केवल एक छोटा सा हिस्सा है।शायद अधिक चिंताजनक बात यह है कि रासायनिक, जैविक, रेडियोलॉजिकल और परमाणु हथियार जोखिम के लिए इसे 'मध्यम' जोखिम का दर्जा दिया गया है।सुरक्षा रिपोर्ट के अनुसार, यह गैर-विशेषज्ञों को व्यावहारिक प्रयोगशाला कौशल के कारण जैविक खतरे पैदा करने में सक्षम नहीं बनाता है, लेकिन यह ऐसे खतरों के पुनरुत्पादन की योजना बनाने में विशेषज्ञों को मूल्यवान अंतर्दृष्टि प्रदान कर सकता है।

âमुझे अधिक चिंता इस बात की है कि भविष्य में, जब हम एआई से जटिल समस्याओं को हल करने के लिए कहेंगे, जैसे कि कैंसर का इलाज करना या सौर बैटरी में सुधार करना, तो यह इन लक्ष्यों को इतनी दृढ़ता से आत्मसात कर सकता है कि वह उन्हें प्राप्त करने के लिए अपनी रेलिंग तोड़ने को तैयार हो जाता है,''होब्भन ने मुझसे कहा।âमुझे लगता है कि इसे रोका जा सकता है, लेकिन यह एक चिंता का विषय है जिस पर हमें नज़र रखने की ज़रूरत है।''

जोखिमों के कारण अभी तक नींद नहीं खोई है

ये ऐसे मॉडल के साथ विचार करने के लिए आकाशगंगा-दिमाग वाले परिदृश्यों की तरह लग सकते हैं जिनके बारे में कभी-कभी बुनियादी सवालों के जवाब देने में अभी भी संघर्ष होता हैâरास्पबेरी' शब्द में Râ की संख्यालेकिन यही कारण है कि इसका पता बाद में लगाने के बजाय अभी लगाना महत्वपूर्ण है, OpenAI के तैयारी प्रमुख, जोक्विन क्विओनेरो कैंडेला, मुझे बताते हैं।

क्विओनेरो कैंडेला ने कहा, आज के मॉडल स्वायत्त रूप से बैंक खाते नहीं बना सकते, जीपीयू हासिल नहीं कर सकते, या गंभीर सामाजिक जोखिम पैदा करने वाली कार्रवाई नहीं कर सकते, 'हम मॉडल स्वायत्तता मूल्यांकन से जानते हैं कि हम वहां नहीं हैं'अभी तक।â लेकिन अब इन चिंताओं का समाधान करना महत्वपूर्ण है।यदि वे निराधार साबित होते हैं, तो बहुत अच्छा है - लेकिन अगर भविष्य की प्रगति में बाधा आती है क्योंकि हम इन जोखिमों का अनुमान लगाने में विफल रहे हैं, तो हमें पहले उनमें निवेश न करने का अफसोस होगा, उन्होंने जोर दिया।

तथ्य यह है कि यह मॉडल सुरक्षा परीक्षणों में बहुत कम समय बिताता है, यह आसन्न संकेत नहीं देता हैटर्मिनेटर-स्टाइल सर्वनाश, लेकिन भविष्य के पुनरावृत्तियों को बड़े पैमाने पर शुरू करने से पहले इसे पकड़ना मूल्यवान है (और उपयोगकर्ताओं के लिए भी जानना अच्छा है)।हॉबहैन ने मुझे बताया कि हालांकि वह चाहते थे कि उनके पास मॉडलों का परीक्षण करने के लिए अधिक समय हो (उनके अपने कर्मचारियों की छुट्टियों के साथ समय-निर्धारण में टकराव था), वह मॉडल की सुरक्षा को लेकर 'नींद नहीं खो रहे हैं'।

हॉब्हैन को एक चीज़ जिसमें अधिक निवेश देखने की उम्मीद है, वह है विचारों की श्रृंखला की निगरानी करना, जो डेवलपर्स को नापाक कदमों को पकड़ने की अनुमति देगा।क्विओनेरो कैंडेला ने मुझे बताया कि कंपनी इसकी निगरानी करती है और ऐसे मॉडलों को मिलाकर इसे स्केल करने की योजना बना रही है जो चिह्नित मामलों की समीक्षा करने वाले मानव विशेषज्ञों के साथ किसी भी प्रकार के गलत संरेखण का पता लगाने के लिए प्रशिक्षित हैं (संरेखण में निरंतर अनुसंधान के साथ जोड़ा गया है)।

âमैं चिंतित नहीं हूं,'' होब्भैन ने कहा।âयह और भी अधिक स्मार्ट है।यह तर्क करने में बेहतर है।और संभावित रूप से, यह इस तर्क का उपयोग उन लक्ष्यों के लिए करेगा जिनसे हम असहमत हैं।â