AI agents help explain other AI systems
FIND는 실제 네트워크 구성 요소와 그 복잡성을 모방하는 기능을 갖춘 신경망의 자동화된 해석 방법을 평가하기 위한 새로운 벤치마크 제품군입니다.또한 사전 훈련된 언어 모델을 사용하여 함수 동작에 대한 설명을 생성하는 자동 해석 에이전트를 사용하는 새로운 대화형 방법을 제시하며, 로컬 세부 정보 캡처 시 추가 개선의 필요성을 강조하면서 함수 구조를 추론하는 에이전트의 능력을 보여줍니다.크레딧: Alex Shipps / MIT CSAIL

훈련된 신경망의 동작을 설명하는 것은 특히 이러한 모델의 크기와 정교함이 증가함에 따라 여전히 매력적인 퍼즐로 남아 있습니다.역사상 다른 ​​과학적 과제와 마찬가지로 인공 지능 시스템의 작동 방식을 리버스 엔지니어링하려면 가설을 세우고, 행동에 개입하고, 개별 뉴런을 검사하기 위해 대규모 네트워크를 해부하는 등 상당한 양의 실험이 필요합니다.

지금까지 대부분의 성공적인 실험에는 많은 양의 인간 감독이 포함되었습니다.GPT-4 이상의 크기를 가진 모델 내부의 모든 계산을 설명하려면 AI 모델 자체를 사용하더라도 더 많은 자동화가 필요할 것이 거의 확실합니다.

이러한 시의적절한 노력을 촉진하기 위해 MIT 컴퓨터 과학 및 인공 지능 연구소(CSAIL)의 연구원들은 AI 모델을 사용하여 다른 시스템에 대한 실험을 수행하고 해당 동작을 설명하는 새로운 접근 방식을 개발했습니다.그들의 방법은 사전 훈련된 언어 모델로 구축된 에이전트를 사용하여 훈련된 네트워크 내부의 계산에 대한 직관적인 설명을 생성합니다.

이 전략의 핵심은 과학자의 실험 과정을 모방하도록 설계된 "자동 해석 에이전트"(AIA)입니다.해석 에이전트는 다양한 형태로 이러한 시스템에 대한 설명을 생성하기 위해 개별 뉴런에서 전체 모델에 이르기까지 규모가 다양한 다른 계산 시스템에 대한 테스트를 계획하고 수행합니다.시스템의 동작을 재현하는 코드입니다.

사례를 수동적으로 분류하거나 요약하는 기존 해석성 절차와 달리 AIA는 가설 형성, 실험 테스트, 반복 학습에 적극적으로 참여하여 다른 시스템에 대한 이해를 실시간으로 개선합니다.

AIA 방법을 보완하는 것은 새로운 "함수 해석 및 설명"(FIND) 벤치마크로, 훈련된 네트워크 내부의 계산과 유사한 기능의 테스트 베드이며 해당 동작에 대한 설명입니다.

실제 네트워크 구성 요소에 대한 설명의 품질을 평가할 때 중요한 과제 중 하나는 설명이 설명력만큼 좋다는 것입니다. 연구원은 단위의 실측 레이블이나 학습된 계산에 대한 설명에 접근할 수 없습니다.FIND는 해석 가능성 절차를 평가하기 위한 신뢰할 수 있는 표준을 제공함으로써 현장에서 오랫동안 지속되어 온 이 문제를 해결합니다. 즉, 함수 설명(예: AIA에서 생성됨)을 벤치마크의 함수 설명과 비교하여 평가할 수 있습니다.

예를 들어, FIND에는 언어 모델 내부의 실제 뉴런의 동작을 모방하도록 설계된 합성 뉴런이 포함되어 있으며, 그 중 일부는 "지상 교통"과 같은 개별 개념에 대해 선택적입니다.AIA에는 뉴런의 반응을 테스트하기 위해 합성 뉴런 및 설계 입력(예: "나무", "행복" 및 "자동차")에 대한 블랙박스 액세스가 제공됩니다.합성 뉴런이 다른 입력보다 "자동차"에 대해 더 높은 응답 값을 생성한다는 사실을 알아낸 후 AIA는 자동차에 대한 뉴런의 선택성을 비행기나 보트와 같은 다른 형태의 교통수단과 구별하기 위해 보다 세밀한 테스트를 설계할 수 있습니다.

AIA가 "이 뉴런은 항공이나 해상 여행이 아닌 도로 운송에 선택적입니다."와 같은 설명을 생성하는 경우 이 설명은 FIND의 합성 뉴런("지상 운송에 선택적")에 대한 실제 설명과 비교하여 평가됩니다.그런 다음 벤치마크를 사용하여 AIA의 기능을 문헌의 다른 방법과 비교할 수 있습니다.

Sarah Schwettmann 박사, 공동 저자새 작품에 관한 논문CSAIL의 연구 과학자는 이 접근 방식의 장점을 강조합니다.해당 논문은 다음 사이트에서 이용 가능합니다.arXiv사전 인쇄 서버.

"AIA의 자율 가설 생성 및 테스트 기능은 과학자들이 감지하기 어려운 동작을 표면화할 수 있을 수 있습니다. 다른 시스템을 조사하기 위한 도구가 장착된 언어 모델이 이러한 유형의 실험 설계가 가능하다는 것은 놀라운 일입니다."라고 Schwettmann은 말합니다."실제 답변을 제공하는 명확하고 간단한 벤치마크는 언어 모델에서 보다 일반적인 기능을 제공하는 주요 동인이었으며 FIND가 해석 가능성 연구에서 유사한 역할을 할 수 있기를 바랍니다."

해석 가능성 자동화

대규모 언어 모델은 여전히 ​​기술 세계에서 수요가 많은 유명 인사로서의 지위를 유지하고 있습니다.최근 LLM의 발전으로 다양한 영역에 걸쳐 복잡한 추론 작업을 수행하는 능력이 강조되었습니다.CSAIL 팀은 이러한 기능을 통해 언어 모델이 자동화된 해석을 위한 일반화된 에이전트의 백본 역할을 할 수 있다는 것을 인식했습니다.

Schwettmann은 "해석성은 역사적으로 매우 다면적인 분야였습니다."라고 말했습니다."모든 경우에 적용되는 일률적인 접근 방식은 없습니다. 대부분의 절차는 시스템에 대해 가질 수 있는 개별 질문과 시각 또는 언어와 같은 개별 양식에 매우 구체적입니다. 라벨링에 대한 기존 접근 방식내부 비전 모델에는 인간 데이터에 대한 특수 모델 교육이 필요했으며, 여기서 이러한 모델은 이 단일 작업만 수행합니다.

"언어 모델로 구축된 해석 에이전트는 다른 시스템을 설명하기 위한 일반적인 인터페이스를 제공할 수 있습니다. 즉, 실험 전반에 걸쳐 결과를 합성하고, 다양한 양식을 통합하고, 심지어 매우 기본적인 수준에서 새로운 실험 기술을 발견하는 것까지 가능합니다."

설명을 수행하는 모델이 블랙박스 자체인 체제에 진입함에 따라 해석 가능성 방법에 대한 외부 평가가 점점 더 중요해지고 있습니다.팀의 새로운 벤치마크는 실제에서 관찰된 동작을 모델로 한 알려진 구조의 기능 모음을 통해 이러한 요구 사항을 해결합니다.FIND 내부의 함수는 수학적 추론부터 문자열에 대한 기호 연산, 단어 수준 작업으로 구축된 합성 뉴런에 이르기까지 다양한 영역을 포괄합니다.

대화형 기능의 데이터 세트는 절차적으로 구성됩니다.노이즈를 추가하고, 함수를 구성하고, 편향을 시뮬레이션하여 간단한 함수에 실제 복잡성을 도입합니다.이를 통해 실제 성능으로 변환되는 설정에서 해석 가능성 방법을 비교할 수 있습니다.

연구원들은 기능 데이터 세트 외에도 AIA 및 기존 자동화 해석 방법의 효율성을 평가하기 위한 혁신적인 평가 프로토콜을 도입했습니다.이 프로토콜에는 두 가지 접근 방식이 포함됩니다.코드에서 함수를 복제해야 하는 작업의 경우 평가에서는 AI가 생성한 추정치와 원래의 실측 함수를 직접 비교합니다.기능의 자연어 설명과 관련된 작업의 경우 평가가 더욱 복잡해집니다.

이러한 경우 설명의 품질을 정확하게 측정하려면 의미론적 내용을 자동으로 이해해야 합니다.이 문제를 해결하기 위해 연구원들은 특수한 "제3자" 언어 모델을 개발했습니다.이 모델은 AI 시스템이 제공하는 자연어 설명의 정확성과 일관성을 평가하고 이를 실측 함수 동작과 비교하도록 특별히 훈련되었습니다.

FIND를 사용하면 해석 가능성을 완전히 자동화하는 데 아직 거리가 멀다는 사실을 평가할 수 있습니다.AIA는 기존 해석 가능성 접근 방식보다 성능이 뛰어나지만 여전히 벤치마크 기능의 거의 절반을 정확하게 설명하지 못합니다.

이번 연구의 공동 저자이자 CSAIL의 박사후 연구원인 Tamar Rott Shaham은 "이 세대의 AIA는 높은 수준의 기능을 설명하는 데 효과적이지만 여전히 세부적인 세부 사항을 간과하는 경우가 많습니다. 특히 노이즈가 있는 기능 하위 도메인에서는 더욱 그렇습니다.불규칙한 행동.

"이는 해당 영역의 샘플링이 충분하지 않기 때문일 수 있습니다. 한 가지 문제는 AIA의 효율성이 초기 탐색 데이터로 인해 방해받을 수 있다는 것입니다. 이에 대응하기 위해 우리는 구체적이고 관련 있는 입력으로 검색을 초기화하여 AIA의 탐색을 안내하려고 했습니다.해석 정확도가 크게 향상되었습니다."이 접근 방식은 해석 프로세스를 시작하기 위해 미리 계산된 예제를 사용하여 새로운 AIA 방법과 이전 기술을 결합합니다.

연구원들은 또한 AIA의 능력을 강화하여 보다 정확한 실험을 수행할 수 있는 툴킷을 개발하고 있습니다., 블랙박스 및 화이트박스 설정 모두에서.이 툴킷은 AIA에 보다 미묘하고 정확한 신경망 분석을 위해 입력을 선택하고 가설 테스트 기능을 개선하기 위한 더 나은 도구를 제공하는 것을 목표로 합니다.

또한 팀은 실제 시나리오에서 모델을 분석할 때 물어볼 올바른 질문을 결정하는 데 중점을 두고 AI 해석 가능성의 실질적인 문제를 해결하고 있습니다.이들의 목표는 궁극적으로 사람들이 시스템(예: 자율 주행 또는 얼굴 인식)을 감사하여 배포 전에 잠재적인 실패 모드, 숨겨진 편견 또는 놀라운 행동을 진단하는 데 도움이 될 수 있는 자동화된 해석 가능성 절차를 개발하는 것입니다.

감시자들을 지켜보는 중

팀은 언젠가 인간 과학자들이 감독과 지침을 제공하면서 다른 시스템을 감사할 수 있는 거의 자율적인 AIA를 개발하는 것을 구상하고 있습니다.고급 AIA는 잠재적으로 인간 과학자의 초기 고려 사항을 넘어서는 새로운 종류의 실험과 질문을 개발할 수 있습니다.

전체 신경 회로 또는 하위 네트워크와 같은 보다 복잡한 동작을 포함하도록 AI 해석 가능성을 확장하고 바람직하지 않은 동작으로 이어질 수 있는 입력을 예측하는 데 중점을 둡니다.이번 개발은 AI 시스템을 더욱 이해하기 쉽고 신뢰할 수 있게 만드는 것을 목표로 하는 AI 연구에서 중요한 진전을 나타냅니다.

"좋은 벤치마크는 어려운 과제를 해결하기 위한 강력한 도구입니다."라고 이번 연구에 참여하지 않은 하버드 대학의 컴퓨터 과학 교수인 마틴 와텐버그(Martin Wattenberg)는 말했습니다."오늘날 기계 학습의 가장 중요한 과제 중 하나인 해석 가능성에 대한 이 정교한 벤치마크를 보는 것은 정말 멋진 일입니다. 특히 저자가 만든 자동화된 해석 가능성 에이전트에 깊은 인상을 받았습니다. 이는 일종의 해석 가능성 주짓수로, AI를 스스로 되돌리는 것입니다.인간의 이해를 돕기 위해서다."

Schwettmann, Rott Shaham 및 그들의 동료들은 그들의 연구를 다음과 같이 발표했습니다.NeurIPS 202312월에.추가 MIT 공동 저자, CSAIL 및 전기 공학 및 컴퓨터 과학부(EECS)의 모든 계열사에는 대학원생 Joanna Materzynska, 학부생 Neil Chowdhury, Shuang Li, Ph.D., 조교수 Jacob Andreas 및 교수가 포함됩니다.안토니오 토랄바.Northeastern University 조교수 David Bau가 추가 공동 저자입니다.

추가 정보:Sarah Schwettmann 외, FIND: 해석 가능성 방법 평가를 위한 함수 설명 벤치마크,arXiv(2023).DOI: 10.48550/arxiv.2309.03886

저널 정보: arXiv

이 이야기는 MIT News(web.mit.edu/newsoffice/)는 MIT 연구, 혁신 및 교육에 대한 뉴스를 다루는 인기 사이트입니다.

소환:AI 에이전트가 다른 AI 시스템을 설명하는 데 도움을 줌(2024년 1월 3일)2024년 1월 3일에 확인함https://techxplore.com/news/2024-01-ai-agents.html에서

이 문서는 저작권의 보호를 받습니다.사적인 학습이나 조사를 목적으로 하는 공정한 거래를 제외하고는 어떠한 행위도 허용되지 않습니다.서면 허가 없이 일부를 복제할 수 있습니다.콘텐츠는 정보 제공 목적으로만 제공됩니다.