Researchers introduce generative AI to analyze complex tabular data
जेनएसक्यूएल का अवलोकन.श्रेय:प्रोग्रामिंग भाषाओं पर एसीएम की कार्यवाही(2024)।डीओआई: 10.1145/3656409

एक नया टूल डेटाबेस उपयोगकर्ताओं के लिए पर्दे के पीछे क्या चल रहा है, यह जानने की आवश्यकता के बिना सारणीबद्ध डेटा का जटिल सांख्यिकीय विश्लेषण करना आसान बनाता है।

जेनएसक्यूएल, डेटाबेस के लिए एक जेनरेटिव एआई सिस्टम, उपयोगकर्ताओं को पूर्वानुमान लगाने, विसंगतियों का पता लगाने, लापता मूल्यों का अनुमान लगाने, त्रुटियों को ठीक करने या उत्पन्न करने में मदद कर सकता हैबस कुछ कीस्ट्रोक्स के साथ।

उदाहरण के लिए, यदि सिस्टम का उपयोग विश्लेषण करने के लिए किया जाता थाएक ऐसे मरीज़ से जो हमेशा से रहा है, यह रक्तचाप की रीडिंग को पकड़ सकता है जो उस विशेष रोगी के लिए कम है लेकिन अन्यथा सामान्य सीमा में होगा।

GenSQL स्वचालित रूप से एक सारणीबद्ध डेटासेट और एक जेनरेटिव संभाव्य AI को एकीकृत करता है, जो अनिश्चितता का कारण बन सकता है और उन्हें समायोजित कर सकता हैनए डेटा के आधार पर.

इसके अलावा, GenSQL का उपयोग सिंथेटिक डेटा का उत्पादन और विश्लेषण करने के लिए किया जा सकता है जो वास्तविक डेटा की नकल करता है.यह उन स्थितियों में विशेष रूप से उपयोगी हो सकता है जहांसाझा नहीं किया जा सकता, जैसे रोगी स्वास्थ्य रिकॉर्ड, या जब वास्तविक डेटा विरल हो।

यह नया टूल SQL के शीर्ष पर बनाया गया है, जो डेटाबेस निर्माण और हेरफेर के लिए एक प्रोग्रामिंग भाषा है जिसे 1970 के दशक के अंत में पेश किया गया था और दुनिया भर में लाखों डेवलपर्स द्वारा इसका उपयोग किया जाता है।

"ऐतिहासिक रूप से, SQL ने व्यवसाय जगत को सिखाया कि एक कंप्यूटर क्या कर सकता है। उन्हें कस्टम प्रोग्राम लिखने की ज़रूरत नहीं थी, उन्हें बस उच्च-स्तरीय भाषा में डेटाबेस के प्रश्न पूछने थे।

"हमें लगता है कि, जब हम केवल डेटा को क्वेरी करने से लेकर मॉडल और डेटा के प्रश्न पूछने की ओर बढ़ते हैं, तो हमें एक समान भाषा की आवश्यकता होगी जो लोगों को सुसंगत प्रश्न सिखाए जिन्हें आप एक ऐसे कंप्यूटर से पूछ सकते हैं जिसमें डेटा का एक संभाव्य मॉडल हो," कहते हैं।विकाश मानसिंघका, जेनएसक्यूएल का परिचय देने वाले एक पेपर के वरिष्ठ लेखक और एक प्रमुख अनुसंधान वैज्ञानिक और एमआईटी के मस्तिष्क और संज्ञानात्मक विज्ञान विभाग में संभाव्य कंप्यूटिंग परियोजना के नेता हैं।

शोध हैप्रकाशितजर्नल मेंप्रोग्रामिंग भाषाओं पर एसीएम की कार्यवाही.

जब शोधकर्ताओं ने जेनएसक्यूएल की तुलना डेटा विश्लेषण के लिए लोकप्रिय, एआई-आधारित तरीकों से की, तो उन्होंने पाया कि यह न केवल तेज़ था बल्कि अधिक सटीक परिणाम भी देता था।महत्वपूर्ण बात यह है कि GenSQL द्वारा उपयोग किए जाने वाले संभाव्य मॉडल समझाने योग्य हैं, ताकि उपयोगकर्ता उन्हें पढ़ और संपादित कर सकें।

"डेटा को देखते हुए और कुछ सरल सांख्यिकीय नियमों का उपयोग करके कुछ सार्थक पैटर्न खोजने का प्रयास करने से महत्वपूर्ण इंटरैक्शन छूट सकते हैं। आप वास्तव में सहसंबंध और चर की निर्भरता को एक मॉडल में पकड़ना चाहते हैं, जो काफी जटिल हो सकता है।

"जेनएसक्यूएल के साथ, हम उपयोगकर्ताओं के एक बड़े समूह को सभी विवरणों को जाने बिना अपने डेटा और उनके मॉडल को क्वेरी करने में सक्षम बनाना चाहते हैं," मस्तिष्क और संज्ञानात्मक विज्ञान विभाग के एक शोध वैज्ञानिक और सदस्य, प्रमुख लेखक मैथ्यू हुओट कहते हैं।संभाव्य कंप्यूटिंग परियोजना।

पेपर में उनके साथ एमआईटी स्नातक छात्र मतिन गवामी और अलेक्जेंडर ल्यू भी शामिल हैं;कैमरून फ़्रीर, एक शोध वैज्ञानिक;डिजिटल गैराज के उलरिच स्कैचटेल और ज़ेन शेल्बी;मार्टिन रिनार्ड, इलेक्ट्रिकल इंजीनियरिंग और कंप्यूटर विज्ञान विभाग में एमआईटी प्रोफेसर और कंप्यूटर विज्ञान और कृत्रिम बुद्धिमत्ता प्रयोगशाला (सीएसएआईएल) के सदस्य;और फेरस साद, कार्नेगी मेलन विश्वविद्यालय में सहायक प्रोफेसर।

यह शोध हाल ही में प्रोग्रामिंग भाषा डिजाइन और कार्यान्वयन पर एसीएम सम्मेलन में प्रस्तुत किया गया था (पीएलडीआई 2024).

मॉडल और डेटाबेस का संयोजन

SQL, जो संरचित क्वेरी भाषा के लिए है, डेटाबेस में जानकारी संग्रहीत करने और हेरफेर करने के लिए एक प्रोग्रामिंग भाषा है।एसक्यूएल में, लोग कीवर्ड का उपयोग करके डेटा के बारे में प्रश्न पूछ सकते हैं, जैसे कि डेटाबेस रिकॉर्ड को सारांशित करना, फ़िल्टर करना या समूहीकृत करना।

हालाँकि, किसी मॉडल को क्वेरी करने से गहरी जानकारी मिल सकती है, क्योंकि मॉडल यह पकड़ सकते हैं कि डेटा किसी व्यक्ति के लिए क्या मायने रखता है।उदाहरण के लिए, एक महिला डेवलपर जो सोचती है कि क्या उसे कम भुगतान किया जाता है, वह संभवतः डेटाबेस रिकॉर्ड के रुझानों की तुलना में व्यक्तिगत रूप से उसके लिए वेतन डेटा का क्या मतलब है, में अधिक रुचि रखती है।

शोधकर्ताओं ने देखा कि SQL संभाव्य एआई मॉडल को शामिल करने के लिए एक प्रभावी तरीका प्रदान नहीं करता है, लेकिन साथ ही, अनुमान लगाने के लिए संभाव्य मॉडल का उपयोग करने वाले दृष्टिकोण जटिल डेटाबेस प्रश्नों का समर्थन नहीं करते हैं।

उन्होंने इस अंतर को भरने के लिए GenSQL का निर्माण किया, जिससे किसी को एक सीधी लेकिन शक्तिशाली औपचारिक प्रोग्रामिंग भाषा का उपयोग करके डेटासेट और संभाव्य मॉडल दोनों को क्वेरी करने में सक्षम बनाया जा सके।

एक GenSQL उपयोगकर्ता अपना डेटा और संभाव्य मॉडल अपलोड करता है, जिसे सिस्टम स्वचालित रूप से एकीकृत करता है।फिर, वह डेटा पर क्वेरी चला सकती है जो पर्दे के पीछे चल रहे संभाव्य मॉडल से भी इनपुट प्राप्त करती है।यह न केवल अधिक जटिल प्रश्नों को सक्षम बनाता है बल्कि अधिक सटीक उत्तर भी प्रदान कर सकता है।

उदाहरण के लिए, GenSQL में एक क्वेरी कुछ इस तरह हो सकती है, "इसकी कितनी संभावना है कि सिएटल का कोई डेवलपर प्रोग्रामिंग भाषा रस्ट जानता है?"किसी डेटाबेस में स्तंभों के बीच सहसंबंध को देखने मात्र से सूक्ष्म निर्भरताएँ छूट सकती हैं।एक संभाव्य मॉडल को शामिल करने से अधिक जटिल इंटरैक्शन को कैप्चर किया जा सकता है।

साथ ही, GenSQL जिन संभाव्य मॉडलों का उपयोग करता है, वे ऑडिट योग्य होते हैं, ताकि लोग देख सकें कि मॉडल निर्णय लेने के लिए किस डेटा का उपयोग करता है।इसके अलावा, ये मॉडल प्रत्येक उत्तर के साथ अंशांकित अनिश्चितता के माप भी प्रदान करते हैं।

उदाहरण के लिए, इस अंशांकित अनिश्चितता के साथ, यदि कोई अल्पसंख्यक समूह के एक मरीज के लिए विभिन्न कैंसर उपचारों के अनुमानित परिणामों के मॉडल पर सवाल उठाता है, जिसे डेटासेट में कम दर्शाया गया है, तो GenSQL उपयोगकर्ता को बताएगा कि यह अनिश्चित है, और यह कितना अनिश्चित है,गलत इलाज की अति आत्मविश्वास से वकालत करने के बजाय।

तेज़ और अधिक सटीक परिणाम

GenSQL का मूल्यांकन करने के लिए, शोधकर्ताओं ने अपने सिस्टम की तुलना लोकप्रिय बेसलाइन तरीकों से की जो तंत्रिका नेटवर्क का उपयोग करते हैं।GenSQL इन दृष्टिकोणों की तुलना में 1.7 से 6.8 गुना अधिक तेज़ था, और अधिक सटीक परिणाम प्रदान करते हुए अधिकांश प्रश्नों को कुछ मिलीसेकंड में निष्पादित करता था।

उन्होंने जेनएसक्यूएल को दो केस स्टडीज में भी लागू किया: एक जिसमें सिस्टम ने गलत लेबल वाले क्लिनिकल परीक्षण डेटा की पहचान की और दूसरा जिसमें उसने सटीक सिंथेटिक डेटा उत्पन्न किया जिसने जीनोमिक्स में जटिल संबंधों को पकड़ लिया।

इसके बाद, शोधकर्ता मानव आबादी के बड़े पैमाने पर मॉडलिंग करने के लिए GenSQL को अधिक व्यापक रूप से लागू करना चाहते हैं।GenSQL के साथ, वे विश्लेषण में उपयोग की जाने वाली जानकारी को नियंत्रित करते हुए स्वास्थ्य और वेतन जैसी चीजों के बारे में निष्कर्ष निकालने के लिए सिंथेटिक डेटा उत्पन्न कर सकते हैं।

वे सिस्टम में नए अनुकूलन और स्वचालन जोड़कर GenSQL को उपयोग में आसान और अधिक शक्तिशाली बनाना चाहते हैं।लंबे समय में, शोधकर्ता उपयोगकर्ताओं को GenSQL में प्राकृतिक भाषा में प्रश्न पूछने में सक्षम बनाना चाहते हैं।उनका लक्ष्य अंततः एक चैटजीपीटी जैसा एआई विशेषज्ञ विकसित करना है, जिससे कोई भी किसी भी डेटाबेस के बारे में बात कर सके, जो जेनएसक्यूएल प्रश्नों का उपयोग करके अपने उत्तर देता है।

अधिक जानकारी:मैथ्यू हुओट एट अल, जेनएसक्यूएल: डेटाबेस टेबल्स के जेनरेटिव मॉडल को क्वेरी करने के लिए एक संभाव्य प्रोग्रामिंग सिस्टम,प्रोग्रामिंग भाषाओं पर एसीएम की कार्यवाही(2024)।डीओआई: 10.1145/3656409

यह कहानी एमआईटी न्यूज़ के सौजन्य से पुनः प्रकाशित की गई है (web.mit.edu/newsoffice/), एक लोकप्रिय साइट जो एमआईटी अनुसंधान, नवाचार और शिक्षण के बारे में समाचार कवर करती है।

उद्धरण:शोधकर्ताओं ने जटिल सारणीबद्ध डेटा का विश्लेषण करने के लिए जेनरेटिव एआई की शुरुआत की (2024, 8 जुलाई)8 जुलाई 2024 को पुनः प्राप्तhttps://techxplore.com/news/2024-07-generative-ai-complex-tabular.html से

यह दस्तावेज कॉपीराइट के अधीन है।निजी अध्ययन या अनुसंधान के उद्देश्य से किसी भी निष्पक्ष व्यवहार के अलावा, नहींलिखित अनुमति के बिना भाग को पुन: प्रस्तुत किया जा सकता है।सामग्री केवल सूचना के प्रयोजनों के लिए प्रदान की गई है।