Researchers introduce generative AI to analyze complex tabular data
GenSQL 概述。信用:ACM 程式語言會議錄(2024)。DOI:10.1145/3656409

一種新工具使資料庫使用者可以更輕鬆地對表格資料執行複雜的統計分析,而無需了解幕後發生的情況。

GenSQL 是一種資料庫生成人工智慧系統,可幫助使用者進行預測、偵測異常、猜測缺失值、修復錯誤或生成只需按幾下按鍵即可。

例如,如果系統用於分析來自一位一直患有此病的患者,它可以捕獲特定患者的較低血壓讀數,但否則會處於正常範圍內。

GenSQL 自動整合表格資料集與產生機率 AI,這可以解釋不確定性並調整它們基於新數據。

此外,GenSQL 可用於產生和分析模擬真實資料的合成資料。。這在以下情況下特別有用:無法共享,例如患者健康記錄或真實數據稀疏時。

這個新工具建立在 SQL 之上,SQL 是一種用於資料庫創建和操作的程式語言,於 20 世紀 70 年代末推出,並被全球數百萬開發人員使用。

「從歷史上看,SQL 教會了商業世界電腦可以做什麼。他們不必編寫自訂程序,只需用高級語言向資料庫提出問題即可。

「我們認為,當我們從僅僅查詢數據轉向詢問模型和數據問題時,我們將需要一種類似的語言來教人們連貫的問題,你可以向具有數據概率模型的計算機詢問,」說Vikash Mansinghka,一篇介紹GenSQL 的論文的資深作者,也是麻省理工學院腦與認知科學系機率計算計畫的首席研究科學家和負責人。

該研究是發表在日記中ACM 程式語言會議錄

當研究人員將 GenSQL 與流行的基於人工智慧的數據分析方法進行比較時,他們發現它不僅速度更快,而且產生的結果更準確。重要的是,GenSQL 使用的機率模型是可解釋的,因此使用者可以閱讀和編輯它們。

「查看資料並嘗試只使用一些簡單的統計規則來找到一些有意義的模式可能會錯過重要的交互作用。您確實想要捕捉模型中變數的相關性和依賴性,這可能非常複雜。

「透過GenSQL,我們希望讓大量使用者能夠查詢他們的數據和模型,而無需了解所有細節,」該研究的主要作者Mathieu Huot 補充道,他是腦與認知科學系的研究科學家,也是該研究的成員。

麻省理工學院的研究生 Matin Ghavami 和 Alexander Lew 與他們一起撰寫了這篇論文。卡梅倫·弗里爾,研究科學家;Digital Garage 的 Ulrich Schaechtel 和 Zane Shelby;Martin Rinard,麻省理工學院電機工程與電腦科學系教授、電腦科學與人工智慧實驗室(CSAIL)成員;費拉斯‧薩阿德 (Feras Saad),卡內基美隆大學助理教授。

該研究最近在 ACM 程式語言設計與實作會議上發表(PLDI 2024)。

結合模型和資料庫

SQL 代表結構化查詢語言,是一種用於在資料庫中儲存和操作資訊的程式語言。在 SQL 中,人們可以使用關鍵字提出有關資料的問題,例如透過對資料庫記錄進行求和、過濾或分組。

然而,查詢模型可以提供更深入的見解,因為模型可以捕捉資料對個人意味著什麼。例如,一位女性開發人員想知道自己的薪資是否過低,她可能更感興趣的是薪資數據對她個人意味著什麼,而不是資料庫記錄中的趨勢。

研究人員注意到,SQL 並沒有提供一種有效的方法來整合機率人工智慧模型,但同時,使用機率模型進行推理的方法不支援複雜的資料庫查詢。

他們建立了 GenSQL 來填補這一空白,使人們能夠使用簡單而強大的正式程式語言來查詢資料集和機率模型。

GenSQL 使用者上傳他們的資料和機率模型,系統會自動整合這些資料和機率模型。然後,她可以對資料執行查詢,這些資料也從後台運行的機率模型取得輸入。這不僅可以實現更複雜的查詢,還可以提供更準確的答案。

例如,GenSQL 中的查詢可能類似於“來自西雅圖的開發人員了解程式語言 Rust 的可能性有多大?”僅查看資料庫中列之間的相關性可能會錯過微妙的依賴關係。結合機率模型可以捕捉更複雜的交互作用。

另外,GenSQL 使用的機率模型是可審計的,因此人們可以看到模型使用哪些資料進行決策。此外,這些模型還提供了校準不確定性的測量以及每個答案。

例如,有了這種校準的不確定性,如果有人在模型中查詢來自資料集中代表性不足的少數群體的患者的不同癌症治療的預測結果,GenSQL 會告訴使用者它是不確定的,以及它有多不確定,而不是過度自信地主張錯誤的治療方法。

更快、更準確的結果

為了評估 GenSQL,研究人員將他們的系統與使用神經網路的流行基線方法進行了比較。GenSQL 比這些方法快 1.7 到 6.8 倍,在幾毫秒內執行大多數查詢,同時提供更準確的結果。

他們還在兩個案例研究中應用了 GenSQL:一個是系統識別出錯誤標記的臨床試驗數據,另一個是產生準確的合成數據,捕捉基因組學中的複雜關係。

接下來,研究人員希望更廣泛地應用 GenSQL 對人群進行大規模建模。借助 GenSQL,他們可以產生合成數據,以推斷健康和工資等信息,同時控制分析中使用的信息。

他們還希望透過為系統添加新的最佳化和自動化功能,使 GenSQL 更易於使用且更強大。從長遠來看,研究人員希望讓使用者能夠在 GenSQL 中進行自然語言查詢。他們的目標是最終開發出類似 ChatGPT 的人工智慧專家,可以與任何資料庫交談,並使用 GenSQL 查詢來提供答案。

更多資訊:Mathieu Huot 等人,GenSQL:用於查詢資料庫表產生模型的機率程式系統,ACM 程式語言會議錄(2024)。DOI:10.1145/3656409

這個故事由麻省理工學院新聞轉載(web.mit.edu/新聞辦公室/),一個熱門網站,涵蓋有關麻省理工學院研究、創新和教學的新聞。

引文:研究人員引入生成式人工智慧來分析複雜的表格資料(2024 年 7 月 8 日)檢索日期:2024 年 7 月 8 日取自 https://techxplore.com/news/2024-07-generative-ai-complex-tabular.html

本文檔受版權保護。除了出於私人學習或研究目的的任何公平交易外,不得未經書面許可,不得複製部分內容。所提供的內容僅供參考。