Researchers introduce generative AI to analyze complex tabular data
GenSQL 概述。信用:ACM 编程语言会议录(2024)。DOI:10.1145/3656409

一种新工具使数据库用户可以更轻松地对表格数据执行复杂的统计分析,而无需了解幕后发生的情况。

GenSQL 是一种数据库生成人工智能系统,可以帮助用户进行预测、检测异常、猜测缺失值、修复错误或生成只需按几下按键即可。

例如,如果系统用于分析来自一位一直患有此病的患者,它可以捕获特定患者的较低血压读数,但否则会处于正常范围内。

GenSQL 自动集成表格数据集和生成概率 AI,这可以解释不确定性并调整它们基于新数据。

此外,GenSQL 可用于生成和分析模拟真实数据的合成数据。。这在以下情况下特别有用:无法共享,例如患者健康记录或真实数据稀疏时。

这个新工具建立在 SQL 之上,SQL 是一种用于数据库创建和操作的编程语言,于 20 世纪 70 年代末推出,被全球数百万开发人员使用。

“从历史上看,SQL 教会了商业世界计算机可以做什么。他们不必编写自定义程序,只需用高级语言向数据库提出问题即可。

“我们认为,当我们从仅仅查询数据转向询问模型和数据问题时,我们将需要一种类似的语言来教人们连贯的问题,你可以向具有数据概率模型的计算机询问,”说Vikash Mansinghka,一篇介绍 GenSQL 的论文的资深作者,也是麻省理工学院脑与认知科学系概率计算项目的首席研究科学家和负责人。

该研究是发表在日记中ACM 编程语言会议录

当研究人员将 GenSQL 与流行的基于人工智能的数据分析方法进行比较时,他们发现它不仅速度更快,而且产生的结果更准确。重要的是,GenSQL 使用的概率模型是可解释的,因此用户可以阅读和编辑它们。

“查看数据并尝试仅使用一些简单的统计规则来找到一些有意义的模式可能会错过重要的交互作用。您确实想要捕获模型中变量的相关性和依赖性,这可能非常复杂。

“通过 GenSQL,我们希望让大量用户能够查询他们的数据和模型,而无需了解所有细节,”该研究的主要作者 Mathieu Huot 补充道,他是脑与认知科学系的研究科学家,也是该研究的成员。概率计算项目。

麻省理工学院的研究生 Matin Ghavami 和 Alexander Lew 与他们一起撰写了这篇论文。卡梅伦·弗里尔,研究科学家;Digital Garage 的 Ulrich Schaechtel 和 Zane Shelby;Martin Rinard,麻省理工学院电气工程与计算机科学系教授、计算机科学与人工智能实验室(CSAIL)成员;费拉斯·萨阿德 (Feras Saad),卡内基梅隆大学助理教授。

该研究最近在 ACM 编程语言设计与实现会议上发表(PLDI 2024)。

结合模型和数据库

SQL 代表结构化查询语言,是一种用于在数据库中存储和操作信息的编程语言。在 SQL 中,人们可以使用关键字提出有关数据的问题,例如通过对数据库记录进行求和、过滤或分组。

然而,查询模型可以提供更深入的见解,因为模型可以捕获数据对个人意味着什么。例如,一位女性开发人员想知道自己的薪酬是否过低,她可能更感兴趣的是薪资数据对她个人意味着什么,而不是数据库记录中的趋势。

研究人员注意到,SQL 并没有提供一种有效的方法来整合概率人工智能模型,但与此同时,使用概率模型进行推理的方法不支持复杂的数据库查询。

他们构建了 GenSQL 来填补这一空白,使人们能够使用简单而强大的正式编程语言来查询数据集和概率模型。

GenSQL 用户上传他们的数据和概率模型,系统会自动集成这些数据和概率模型。然后,她可以对数据运行查询,这些数据也从后台运行的概率模型获取输入。这不仅可以实现更复杂的查询,还可以提供更准确的答案。

例如,GenSQL 中的查询可能类似于“来自西雅图的开发人员了解编程语言 Rust 的可能性有多大?”仅查看数据库中列之间的相关性可能会错过微妙的依赖关系。结合概率模型可以捕获更复杂的交互。

另外,GenSQL 使用的概率模型是可审计的,因此人们可以看到模型使用哪些数据进行决策。此外,这些模型还提供了校准不确定性的测量以及每个答案。

例如,有了这种校准的不确定性,如果有人在模型中查询来自数据集中代表性不足的少数群体的患者的不同癌症治疗的预测结果,GenSQL 会告诉用户它是不确定的,以及它有多不确定,而不是过于自信地主张错误的治疗方法。

更快、更准确的结果

为了评估 GenSQL,研究人员将他们的系统与使用神经网络的流行基线方法进行了比较。GenSQL 比这些方法快 1.7 到 6.8 倍,在几毫秒内执行大多数查询,同时提供更准确的结果。

他们还在两个案例研究中应用了 GenSQL:一个是系统识别出错误标记的临床试验数据,另一个是生成准确的合成数据,捕获基因组学中的复杂关系。

接下来,研究人员希望更广泛地应用 GenSQL 对人群进行大规模建模。借助 GenSQL,他们可以生成合成数据,以推断健康和工资等信息,同时控制分析中使用的信息。

他们还希望通过向系统添加新的优化和自动化功能,使 GenSQL 更易于使用且更强大。从长远来看,研究人员希望让用户能够在 GenSQL 中进行自然语言查询。他们的目标是最终开发出一位类似 ChatGPT 的人工智能专家,可以与任何数据库交谈,并使用 GenSQL 查询来提供答案。

更多信息:Mathieu Huot 等人,GenSQL:用于查询数据库表生成模型的概率编程系统,ACM 编程语言会议录(2024)。DOI:10.1145/3656409

这个故事由麻省理工学院新闻转载(web.mit.edu/新闻办公室/),一个热门网站,涵盖有关麻省理工学院研究、创新和教学的新闻。

引文:研究人员引入生成式人工智能来分析复杂的表格数据(2024 年 7 月 8 日)检索日期:2024 年 7 月 8 日来自 https://techxplore.com/news/2024-07-generative-ai-complex-tabular.html

本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外,不得未经书面许可,不得复制部分内容。所提供的内容仅供参考。