Making it easier to verify an AI model's responses
경기 통계를 기반으로 농구 경기에 대한 표준 LLM 생성(A)와 SymGen(B, 우리의) 설명을 비교합니다.SymGen은 생성된 텍스트 범위(파란색으로 강조 표시)에 소스 데이터에 대한 기호 참조를 추가하여 더 쉽게 확인할 수 있도록 합니다. 예를 들어 범위 위로 마우스를 가져가면 숫자 "30"은 해당 값을 나타내는 도구 설명과 링크(노란색으로 강조 표시)를 표시합니다.참고하고 있습니다.신용 거래:arXiv(2023).DOI: 10.48550/arxiv.2311.09188

인상적인 기능에도 불구하고 대규모 언어 모델은 완벽하지 않습니다.이러한 인공 지능 모델은 쿼리에 대한 응답으로 부정확하거나 지원되지 않는 정보를 생성하여 "환각"을 일으키는 경우가 있습니다.

이러한 환각 문제로 인해 LLM의 응답은 인간 사실 확인 담당자에 의해 검증되는 경우가 많습니다. 특히 모델이 의료 또는 금융과 같은 고위험 환경에 배포되는 경우 더욱 그렇습니다.그러나 검증 프로세스에서는 일반적으로 사람들이 모델에서 인용한 긴 문서를 읽어야 하는데, 이 작업은 너무 번거롭고 오류가 발생하기 쉬우므로 일부 사용자는 애초에 생성 AI 모델을 배포하지 못할 수도 있습니다.

인간 검증자를 돕기 위해 MIT 연구원들은 사람들이 LLM의 응답을 훨씬 더 빠르게 검증할 수 있는 사용자 친화적인 시스템을 만들었습니다.LLM은 SymGen이라는 이 도구를 사용하여 데이터베이스의 특정 셀과 같은 소스 문서의 위치를 ​​직접 가리키는 인용으로 응답을 생성합니다.

사용자는 텍스트 응답의 강조 표시된 부분 위로 마우스를 가져가면 모델이 특정 단어나 문구를 생성하는 데 사용한 데이터를 볼 수 있습니다.동시에 강조 표시되지 않은 부분은 확인하고 확인하기 위해 추가 주의가 필요한 문구를 사용자에게 보여줍니다.

"우리는 사람들이 더 걱정해야 할 텍스트 부분에 선택적으로 집중할 수 있는 기능을 제공합니다. 결국 SymGen은 정보가 올바른지 확인하기 위해 자세히 살펴볼 수 있기 때문에 모델의 응답에 대해 사람들에게 더 높은 신뢰를 줄 수 있습니다.확인되었습니다."라고 Shannon Shen은 말합니다.컴퓨터 과학 대학원생이자 SymGen에 관한 논문의 공동 저자입니다.출판됨arXiv사전 인쇄 서버.

사용자 연구를 통해 Shen과 그의 동료들은 SymGen이 수동 절차에 비해 확인 시간을 약 20% 단축한다는 사실을 발견했습니다.인간이 모델 결과를 더 빠르고 쉽게 검증할 수 있도록 함으로써 SymGen은 사람들이 임상 노트 생성부터 금융 시장 보고서 요약에 이르기까지 다양한 실제 상황에 배포된 LLM에서 오류를 식별하는 데 도움을 줄 수 있습니다.

Shen은 공동 저자이자 동료 EECS 대학원생 Lucas Torroba Hennigen과 함께 논문에 합류했습니다.EECS 대학원생 Aniruddha "Ani" Nrusimha;Good Data Initiative의 회장인 Bernhard Gapp;선임 저자 David Sontag, EECS 교수, MIT Jameel Clinic 회원, 컴퓨터 과학 및 인공 지능 연구소(CSAIL)의 임상 기계 학습 그룹 리더;EECS 조교수이자 CSAIL 회원인 김윤 씨.이 연구는 최근 언어 모델링 컨퍼런스에서 발표되었습니다.

상징적 참조

검증을 돕기 위해 많은 LLM은 사용자가 확인할 수 있도록 언어 기반 응답과 함께 외부 문서를 가리키는 인용을 생성하도록 설계되었습니다.그러나 이러한 검증 시스템은 일반적으로 사람들이 수많은 인용문을 살펴보는 데 드는 노력을 고려하지 않고 나중에 고려하여 설계된다고 Shen은 말합니다.

"제너레이티브 AI는 사용자가 작업을 완료하는 데 걸리는 시간을 줄이기 위한 것입니다. 모델이 합리적인 내용을 말하고 있는지 확인하기 위해 이러한 모든 문서를 읽는 데 몇 시간을 소비해야 한다면 세대를 실제로 사용하는 것은 도움이 되지 않습니다."라고 Shen은 말합니다.

연구자들은 작업을 수행할 인간의 관점에서 검증 문제에 접근했습니다.

SymGen 사용자는 먼저 농구 경기의 통계가 포함된 테이블과 같이 응답에서 참조할 수 있는 데이터를 LLM에 제공합니다.그런 다음 해당 데이터에서 게임 요약을 생성하는 등의 작업을 모델에 즉시 완료하도록 요청하는 대신 연구원은 중간 단계를 수행합니다.이는 모델이 상징적인 형태로 응답을 생성하도록 유도합니다.

이 프롬프트를 사용하면 모델이 응답에서 단어를 인용하려고 할 때마다 참조하는 정보가 포함된 데이터 테이블의 특정 셀을 작성해야 합니다.예를 들어, 모델이 응답에서 "Portland Trailblazers"라는 문구를 인용하려는 경우 해당 텍스트를 해당 단어가 포함된 데이터 테이블의 셀 이름으로 바꿉니다.

"기호 형식의 텍스트를 포함하는 이 중간 단계가 있기 때문에 매우 세부적인 참조를 가질 수 있습니다. 출력의 모든 텍스트 범위에 대해 이것이 정확히 데이터에서 해당 위치에 있다고 말할 수 있습니다."라고 Hennigen은 말합니다.

그런 다음 SymGen은 데이터 테이블의 해당 텍스트를 모델의 응답으로 복사하는 규칙 기반 도구를 사용하여 각 참조를 해결합니다.

"이 방법으로 우리는 그것이 축어적 사본임을 알 수 있으므로 실제 데이터 변수에 해당하는 텍스트 부분에 오류가 없을 것임을 알 수 있습니다."라고 Shen은 덧붙입니다.

검증 간소화

모델은 훈련된 방식으로 인해 상징적인 반응을 생성할 수 있습니다.대규모 언어 모델에는 인터넷에서 대량의 데이터가 공급되며 일부 데이터는 코드가 실제 값을 대체하는 "자리 표시자 형식"으로 기록됩니다.

SymGen이 모델에 기호 응답을 생성하라는 메시지를 표시할 때 유사한 구조를 사용합니다.Shen은 "우리는 LLM의 기능을 활용하기 위해 특정 방식으로 프롬프트를 디자인합니다"라고 덧붙입니다.

사용자 연구 중에 대다수의 참가자는 SymGen을 사용하면 LLM에서 생성된 텍스트를 더 쉽게 확인할 수 있다고 말했습니다.표준 방법을 사용한 경우보다 약 20% 더 빠르게 모델의 응답을 검증할 수 있었습니다.

그러나 SymGen은 소스 데이터의 품질에 따라 제한됩니다.LLM은 잘못된 변수를 인용할 수 있으며 인간 검증자는 현명하지 못할 수도 있습니다.또한 사용자는 SymGen에 제공할 테이블과 같은 구조화된 형식의 소스 데이터를 가지고 있어야 합니다.현재 시스템은 표 형식 데이터로만 작동합니다.

앞으로 연구원들은 임의의 텍스트와 기타 형태의 데이터를 처리할 수 있도록 SymGen을 향상시키고 있습니다.예를 들어 이 기능을 사용하면 AI가 생성한 법률 문서 요약의 일부를 검증하는 데 도움이 될 수 있습니다.또한 그들은 AI가 생성한 임상 요약에서 오류를 식별할 수 있는 방법을 연구하기 위해 의사와 함께 SymGen을 테스트할 계획입니다.

추가 정보:Lucas Torroba Hennigen 외, 기호 참조를 사용한 검증 가능한 텍스트 생성을 향하여,arXiv(2023).DOI: 10.48550/arxiv.2311.09188

저널 정보: arXiv

이 이야기는 MIT News(web.mit.edu/newsoffice/)는 MIT 연구, 혁신 및 교육에 대한 뉴스를 다루는 인기 사이트입니다.

소환:사용자 친화적인 시스템으로 AI 모델의 반응 검증이 쉬워짐 (2024년 10월 21일)2024년 10월 21일에 확인함https://techxplore.com/news/2024-10-user-Friendly-easier-ai-responses.html에서

이 문서는 저작권의 보호를 받습니다.사적인 학습이나 조사를 목적으로 하는 공정한 거래를 제외하고는 어떠한 행위도 허용되지 않습니다.서면 허가 없이 일부를 복제할 수 있습니다.콘텐츠는 정보 제공 목적으로만 제공됩니다.