Researchers introduce generative AI to analyze complex tabular data
GenSQL 개요.신용 거래:프로그래밍 언어에 관한 ACM 간행물(2024).DOI: 10.1145/3656409

새로운 도구를 사용하면 데이터베이스 사용자는 뒤에서 무슨 일이 일어나고 있는지 알 필요 없이 표 형식 데이터에 대한 복잡한 통계 분석을 더 쉽게 수행할 수 있습니다.

데이터베이스용 생성 AI 시스템인 GenSQL은 사용자가 예측하고, 이상을 감지하고, 누락된 값을 추측하고, 오류를 수정하거나, 생성하는 데 도움을 줄 수 있습니다.몇 번의 키 입력만으로 가능합니다.

예를 들어 시스템을 분석하는 데 사용된 경우항상 앓고 있던 환자로부터, 특정 환자에 대해서는 낮지만 정상 범위에 있는 혈압 수치를 포착할 수 있습니다.

GenSQL은 표 형식 데이터 세트와 생성 확률 AI를 자동으로 통합합니다., 이는 불확실성을 설명하고새로운 데이터를 기반으로 합니다.

또한 GenSQL을 사용하면 실제 데이터를 모방하는 합성 데이터를 생성하고 분석할 수 있습니다..이는 다음과 같은 상황에서 특히 유용할 수 있습니다.환자 건강 기록이나 실제 데이터가 희박한 경우에는 공유할 수 없습니다.

이 새로운 도구는 1970년대 후반에 도입되어 전 세계 수백만 명의 개발자가 사용하는 데이터베이스 생성 및 조작을 위한 프로그래밍 언어인 SQL을 기반으로 구축되었습니다.

"역사적으로 SQL은 비즈니스 세계에 컴퓨터가 할 수 있는 일을 가르쳤습니다. 그들은 사용자 정의 프로그램을 작성할 필요가 없었고 고급 언어로 데이터베이스에 질문하기만 하면 되었습니다.

"단순한 데이터 쿼리에서 모델과 데이터에 대한 질문으로 전환하려면 데이터의 확률 모델이 있는 컴퓨터에 질문할 수 있는 일관된 질문을 사람들에게 가르치는 유사한 언어가 필요하다고 생각합니다."라고 말합니다.Vikash Mansinghka는 GenSQL을 소개하는 논문의 수석 저자이자 MIT 뇌 및 인지 과학부 확률 컴퓨팅 프로젝트의 수석 연구 과학자이자 리더입니다.

연구는출판됨일지에서프로그래밍 언어에 관한 ACM 간행물.

연구원들은 GenSQL을 데이터 분석을 위한 널리 사용되는 AI 기반 접근 방식과 비교했을 때 GenSQL이 더 빠를 뿐만 아니라 더 정확한 결과를 생성한다는 사실을 발견했습니다.중요한 점은 GenSQL에서 사용하는 확률 모델이 설명 가능하므로 사용자가 읽고 편집할 수 있다는 것입니다.

"단지 몇 가지 간단한 통계 규칙을 사용하여 데이터를 보고 의미 있는 패턴을 찾으려고 하면 중요한 상호 작용을 놓칠 수 있습니다. 모델에서 상당히 복잡할 수 있는 변수의 상관 관계와 종속성을 포착하고 싶을 것입니다.

"우리는 GenSQL을 사용하여 많은 사용자가 모든 세부 사항을 알 필요 없이 데이터와 모델을 쿼리할 수 있도록 하고 싶습니다."라고 뇌 및 인지과학과의 연구 과학자이자 학회 회원인 수석 저자 Mathieu Huot가 덧붙였습니다.확률 컴퓨팅 프로젝트.

그들은 MIT 대학원생인 Matin Ghavami와 Alexander Lew가 논문에 합류했습니다.연구 과학자 Cameron Freer;Digital Garage의 Ulrich Schaechtel과 Zane Shelby;MIT 전기 공학 및 컴퓨터 과학과 교수이자 CSAIL(컴퓨터 과학 및 인공 지능 연구소) 회원인 Martin Rinard;그리고 Carnegie Mellon University의 조교수인 Feras Saad도 있습니다.

이 연구는 최근 프로그래밍 언어 설계 및 구현에 관한 ACM 컨퍼런스에서 발표되었습니다.PLDI 2024).

모델과 데이터베이스 결합

SQL은 구조화된 쿼리 언어(Structured Query Language)의 약자로, 데이터베이스에 정보를 저장하고 조작하기 위한 프로그래밍 언어입니다.SQL에서 사람들은 데이터베이스 레코드 합산, 필터링 또는 그룹화와 같은 키워드를 사용하여 데이터에 대해 질문할 수 있습니다.

그러나 모델은 개인에게 어떤 데이터가 의미하는지 캡처할 수 있으므로 모델을 쿼리하면 더 깊은 통찰력을 얻을 수 있습니다.예를 들어, 자신이 급여를 적게 받는지 궁금해하는 여성 개발자는 데이터베이스 기록의 추세보다는 급여 데이터가 자신에게 개인적으로 어떤 의미를 갖는지에 더 관심을 가질 가능성이 높습니다.

연구원들은 SQL이 확률적 AI 모델을 통합하는 효과적인 방법을 제공하지 못하는 동시에 확률적 모델을 사용하여 추론하는 접근 방식이 복잡한 데이터베이스 쿼리를 지원하지 않는다는 점에 주목했습니다.

그들은 이러한 격차를 메우기 위해 GenSQL을 구축하여 누군가가 간단하면서도 강력한 공식 프로그래밍 언어를 사용하여 데이터 세트와 확률 모델을 모두 쿼리할 수 있도록 했습니다.

GenSQL 사용자는 시스템이 자동으로 통합하는 데이터와 확률 모델을 업로드합니다.그런 다음 배후에서 실행되는 확률 모델로부터 입력을 받는 데이터에 대해 쿼리를 실행할 수 있습니다.이는 더 복잡한 쿼리를 가능하게 할 뿐만 아니라 더 정확한 답변을 제공할 수도 있습니다.

예를 들어, GenSQL의 쿼리는 "시애틀의 개발자가 프로그래밍 언어 Rust를 알 가능성은 얼마나 됩니까?"와 같을 수 있습니다.데이터베이스의 열 간의 상관 관계를 살펴보는 것만으로도 미묘한 종속성을 놓칠 수 있습니다.확률 모델을 통합하면 더 복잡한 상호 작용을 포착할 수 있습니다.

또한 GenSQL이 활용하는 확률 모델은 감사 가능하므로 사람들은 모델이 의사 결정에 어떤 데이터를 사용하는지 확인할 수 있습니다.또한 이러한 모델은 각 답변과 함께 보정된 불확실성의 측정값을 제공합니다.

예를 들어, 이러한 보정된 불확실성을 사용하여 데이터 세트에서 과소 대표되는 소수 그룹의 환자에 대한 다양한 암 치료의 예측 결과에 대해 모델을 쿼리하는 경우 GenSQL은 사용자에게 그것이 불확실하고 얼마나 불확실한지 알려줍니다.잘못된 치료를 과신해서 옹호하기보다는.

더 빠르고 정확한 결과

GenSQL을 평가하기 위해 연구원들은 자사의 시스템을 신경망을 사용하는 널리 사용되는 기본 방법과 비교했습니다.GenSQL은 이러한 접근 방식보다 1.7~6.8배 더 빨랐으며, 대부분의 쿼리를 몇 밀리초 내에 실행하면서 더 정확한 결과를 제공했습니다.

그들은 또한 두 가지 사례 연구에 GenSQL을 적용했습니다. 하나는 시스템이 잘못 분류된 임상 시험 데이터를 식별한 것이고 다른 하나는 게놈학의 복잡한 관계를 포착한 정확한 합성 데이터를 생성한 것입니다.

다음으로, 연구원들은 GenSQL을 보다 광범위하게 적용하여 인구에 대한 대규모 모델링을 수행하려고 합니다.GenSQL을 사용하면 분석에 사용되는 정보를 제어하면서 건강 및 급여와 같은 사항에 대한 추론을 도출하는 합성 데이터를 생성할 수 있습니다.

또한 그들은 시스템에 새로운 최적화 및 자동화를 추가하여 GenSQL을 더 쉽게 사용하고 더 강력하게 만들고 싶어합니다.장기적으로 연구원들은 사용자가 GenSQL에서 자연어 쿼리를 수행할 수 있도록 하려고 합니다.그들의 목표는 궁극적으로 GenSQL 쿼리를 사용하여 답변을 기반으로 모든 데이터베이스에 대해 이야기할 수 있는 ChatGPT와 같은 AI 전문가를 개발하는 것입니다.

추가 정보:Mathieu Huot 외, GenSQL: 데이터베이스 테이블의 생성 모델 쿼리를 위한 확률적 프로그래밍 시스템,프로그래밍 언어에 관한 ACM 간행물(2024).DOI: 10.1145/3656409

이 이야기는 MIT News(web.mit.edu/newsoffice/)는 MIT 연구, 혁신 및 교육에 대한 뉴스를 다루는 인기 사이트입니다.

소환:연구원들은 복잡한 표 형식 데이터를 분석하기 위해 생성 AI를 도입합니다(2024년 7월 8일)2024년 7월 8일에 확인함https://techxplore.com/news/2024-07-generative-ai-complex-tabular.html에서

이 문서는 저작권의 보호를 받습니다.사적인 학습이나 조사를 목적으로 하는 공정한 거래를 제외하고는 어떠한 행위도 허용되지 않습니다.서면 허가 없이 일부를 복제할 수 있습니다.콘텐츠는 정보 제공 목적으로만 제공됩니다.