Researchers introduce generative AI to analyze complex tabular data
GenSQL の概要。クレジット:プログラミング言語に関する ACM 議事録(2024年)。DOI: 10.1145/3656409

新しいツールにより、データベース ユーザーは舞台裏で何が起こっているかを知る必要がなく、表形式データの複雑な統計分析を簡単に実行できるようになります。

データベース用の生成 AI システムである GenSQL は、ユーザーの予測、異常の検出、欠損値の推測、エラーの修正、または生成を支援します。数回キーを押すだけで。

たとえば、システムを分析に使用した場合、いつもお世話になっている患者さんからを使用すると、その特定の患者にとっては低いが、そうでなければ正常範囲内にある血圧の測定値を検出できる可能性があります。

GenSQL は表形式のデータセットと生成確率的 AI を自動的に統合します、不確実性を考慮して調整することができます。新しいデータに基づいて。

さらに、GenSQL を使用すると、実際のデータを模倣した合成データを生成および分析できます。。これは、次のような状況で特に役立ちます。患者の健康記録など、実際のデータがまばらな場合には共有できません。

この新しいツールは、1970 年代後半に導入され、世界中の何百万もの開発者によって使用されているデータベースの作成と操作のためのプログラミング言語である SQL をベースに構築されています。

「歴史的に、SQL はビジネス界にコンピューターで何ができるかを教えました。カスタム プログラムを記述する必要はなく、高級言語でデータベースに質問するだけで済みました。

「単なるデータのクエリからモデルやデータの質問に移行するとき、データの確率モデルを備えたコンピュータに尋ねることができる一貫した質問を人々に教える類似の言語が必要になると考えています。」と彼は言います。Vikash Mansinghka 氏は、GenSQL を紹介する論文の上級著者であり、MIT 脳認知科学部門の主任研究員および確率的コンピューティング プロジェクトのリーダーです。

研究というのは、出版された日記でプログラミング言語に関する ACM 議事録

研究者らが GenSQL を一般的な AI ベースのデータ分析アプローチと比較したところ、GenSQL の方が高速であるだけでなく、より正確な結果が得られることがわかりました。重要なのは、GenSQL で使用される確率モデルは説明可能であるため、ユーザーが読み取り、編集できることです。

「データを見て、単純な統計ルールを使用するだけで意味のあるパターンを見つけようとすると、重要な相互作用を見逃してしまう可能性があります。実際には、変数の相関関係と依存関係をキャプチャする必要がありますが、これは非常に複雑になる可能性があります。

「GenSQL を使用すると、大規模なユーザーが詳細を知らなくても自分のデータとモデルをクエリできるようにしたいと考えています」と、脳認知科学部門の研究科学者で筆頭著者の Mathieu Huot 氏は付け加えます。確率的コンピューティング プロジェクト。

この論文には、MIT 大学院生の Matin Ghavami 氏と Alexander Lew 氏も参加しています。キャメロン・フリーア、研究科学者。Digital Garage の Ulrich Schaechtel 氏と Zane Shelby 氏。Martin Rinard 氏は、MIT 電気工学およびコンピュータ サイエンス学科の教授であり、コンピュータ サイエンスおよび人工知能研究所 (CSAIL) のメンバーです。そしてカーネギーメロン大学助教授のフェラス・サード氏。

この研究は最近、プログラミング言語の設計と実装に関する ACM 会議で発表されました (PLDI 2024)。

モデルとデータベースの結合

SQL は Structured Query Language の略で、データベースに情報を保存および操作するためのプログラミング言語です。SQL では、データベース レコードの合計、フィルタリング、グループ化など、キーワードを使用してデータについて質問できます。

ただし、モデルはデータが個人に対して何を暗示するかをキャプチャできるため、モデルをクエリすると、より深い洞察が得られます。たとえば、自分の給料が低いのではないかと考えている女性開発者は、データベースの記録の傾向よりも、給与データが自分個人にとって何を意味するかに興味がある可能性が高くなります。

研究者らは、SQL が確率的 AI モデルを組み込む効果的な方法を提供していないことに気づきましたが、同時に、確率的モデルを使用して推論を行うアプローチは複雑なデータベース クエリをサポートしていませんでした。

彼らはこのギャップを埋めるために GenSQL を構築し、簡単かつ強力な正式なプログラミング言語を使用してデータセットと確率モデルの両方をクエリできるようにしました。

GenSQL ユーザーはデータと確率モデルをアップロードし、システムが自動的に統合します。次に、バックグラウンドで実行されている確率モデルからの入力も取得するデータに対してクエリを実行できます。これにより、より複雑なクエリが可能になるだけでなく、より正確な回答も得られます。

たとえば、GenSQL のクエリは、「シアトルの開発者がプロ​​グラミング言語 Rust を知っている可能性はどのくらいですか?」のようなものになる可能性があります。データベース内の列間の相関関係を見るだけでは、微妙な依存関係を見逃してしまう可能性があります。確率モデルを組み込むと、より複雑な相互作用を捉えることができます。

さらに、GenSQL が利用する確率モデルは監査可能であるため、モデルが意思決定にどのデータを使用しているかを確認できます。さらに、これらのモデルは、各回答とともに校正された不確実性の尺度を提供します。

たとえば、この調整された不確実性を使用して、データセット内で過小評価されている少数グループの患者に対するさまざまながん治療の予測結果をモデルにクエリすると、GenSQL はユーザーにそれが不確実であることと、それがどの程度不確実であるかを通知します。自信過剰に間違った治療法を主張するのではなく。

より速く、より正確な結果が得られます

GenSQL を評価するために、研究者らは自社のシステムをニューラル ネットワークを使用する一般的なベースライン手法と比較しました。GenSQL はこれらのアプローチより 1.7 ~ 6.8 倍高速で、ほとんどのクエリを数ミリ秒で実行しながら、より正確な結果を提供します。

彼らはまた、GenSQL を 2 つのケーススタディにも適用しました。1 つは、システムが誤ってラベル付けされた臨床試験データを識別したもので、もう 1 つは、ゲノミクスの複雑な関係を捕捉した正確な合成データを生成したものです。

次に研究者らは、GenSQL をより広範囲に適用して、人間集団の大規模なモデリングを実施したいと考えています。GenSQL を使用すると、分析で使用する情報を制御しながら、健康や給与などに関する推論を行うための合成データを生成できます。

また、システムに新しい最適化と自動化を追加することで、GenSQL を使いやすく、より強力なものにしたいと考えています。研究者らは長期的には、ユーザーが GenSQL で自然言語クエリを作成できるようにしたいと考えています。彼らの目標は、最終的には、GenSQL クエリを使用して答えを根拠付け、あらゆるデータベースについて話すことができる ChatGPT のような AI 専門家を開発することです。

詳細情報:Mathieu Huot 他、GenSQL: データベース テーブルの生成モデルをクエリするための確率的プログラミング システム、プログラミング言語に関する ACM 議事録(2024年)。DOI: 10.1145/3656409

この記事は MIT ニュースのご厚意により再掲載されています (web.mit.edu/ニュースオフィス/) は、MIT の研究、イノベーション、教育に関するニュースを扱う人気のサイトです。

引用:研究者が複雑な表形式データを分析するために生成 AI を導入 (2024 年 7 月 8 日)2024 年 7 月 8 日に取得https://techxplore.com/news/2024-07-generative-ai-complex-tabular.html より

この文書は著作権の対象です。個人的な研究や研究を目的とした公正な取引を除き、書面による許可なく一部を複製することができます。コンテンツは情報提供のみを目的として提供されています。