LLM benchmarking suite for the EU Artificial Intelligence Act
COMPL-AI 개요.신용 거래:arXiv(2024).DOI: 10.48550/arxiv.2410.07959

ETH Zurich, ETH 및 EPFL과 협력하여 설립된 불가리아 AI 연구 기관 INSAIT 및 ETH 스핀오프인 LatticeFlow AI의 연구원들은 범용 AI(GPAI) 모델에 대한 EU AI법에 대한 최초의 포괄적인 기술 해석을 제공했습니다..이를 통해 EU가 미래 AI 모델에 적용하는 법적 요구 사항을 구체적이고 측정 가능하며 검증 가능한 기술 요구 사항으로 변환한 최초의 기업이 되었습니다.

이러한 번역은 EU AI법의 추가 시행 과정과 매우 관련이 있습니다. 연구원들은 다음과 같은 내용을 제시합니다.모델 개발자가 향후 EU 법적 요구 사항에 얼마나 부합하는지 확인할 수 있습니다.높은 수준의 규제 요구 사항을 실제로 실행 가능한 벤치마크로 변환하는 것은 지금까지 존재하지 않았으므로 두 가지 모두에 중요한 참조 포인트가 될 수 있습니다.현재 개발 중인 EU AI Act 실행 강령도 포함됩니다.

연구원들은 ChatGPT, Llama, Claude 또는 Mistral과 같은 12개의 인기 있는 생성 AI 모델에 대한 접근 방식을 테스트했습니다.(LLM)은 사용하기 매우 유능하고 직관적이기 때문에 일상 생활에서 인공 지능(AI)의 인기와 확산에 크게 기여해 왔습니다.

이러한 AI 모델과 기타 AI 모델의 배포가 증가함에 따라 AI의 책임 있는 사용에 대한 윤리적 및 법적 요구 사항도 증가하고 있습니다., 개인 정보 보호 및 AI 모델의 투명성.모델은 "블랙박스"가 되어서는 안 되며, 최대한 설명 가능하고 추적 가능한 결과를 제공해야 합니다.

AI법의 이행은 기술적으로 명확해야 합니다.

또한 공정하게 업무를 수행해야 하며 누구에게도 차별을 두어서는 안 됩니다.이러한 배경에서 EU가 2024년 3월 채택한 EU AI법은 이러한 기술에 대한 대중의 신뢰를 극대화하고 바람직하지 않은 위험과 부작용을 최소화하기 위해 종합적으로 노력하는 세계 최초의 AI 입법 패키지입니다.

안전하고 신뢰할 수 있으며 지능적인 시스템 연구소 소장이자 INSAIT의 창립자인 ETH 컴퓨터 과학 교수인 마틴 베체프(Martin Vechev)는 "EU AI 법은 책임감 있고 신뢰할 수 있는 AI를 개발하기 위한 중요한 단계입니다. 그러나 지금까지는 명확하고 신뢰할 수 있는 AI가 부족합니다.EU AI법의 높은 수준의 법적 요구 사항에 대한 정확한 기술적 해석.

"이로 인해 법적으로 준수되는 AI 모델을 개발하는 것과 이러한 모델이 실제로 법률을 준수하는 정도를 평가하는 것이 모두 어려워집니다."

EU AI법은 소위 범용 인공 지능(GPAI)의 위험을 억제하기 위한 명확한 법적 틀을 제시합니다.이는 광범위한 작업을 실행할 수 있는 AI 모델을 의미합니다.그러나 이 법은 광범위한 법적 요구 사항이 기술적으로 어떻게 해석되어야 하는지를 명시하지 않습니다.2026년 8월 고위험 AI 모델에 대한 규정이 시행될 때까지 기술 표준은 계속 개발 중입니다.

"그러나 AI 법 시행의 성공 여부는 AI 모델에 대한 구체적이고 정확한 기술 요구 사항과 규정 준수 중심 벤치마크를 얼마나 잘 개발하는지에 크게 좌우될 것입니다."라고 CEO이자 ETH 창립자인 Vechev와 함께한 Petar Tsankov는 말했습니다.실제로 신뢰할 수 있는 AI 구현을 다루는 스핀오프 LatticeFlow AI입니다.

Robin Staab은 "(GP)AI 모델에서 안전성, 설명성 또는 추적성과 같은 핵심 용어가 정확히 무엇을 의미하는지에 대한 표준 해석이 없다면 AI 모델이 AI법을 준수하여 실행되는지 여부가 모델 개발자에게 불분명하게 남아 있습니다"라고 덧붙였습니다., Vechev 연구 그룹의 컴퓨터 과학자이자 박사 과정 학생입니다.

12개 언어 모델 테스트에서 단점 발견

ETH 연구자들이 개발한 방법론은 논의의 출발점과 기초를 제공합니다.연구원들은 또한 AI 모델이 EU AI 법의 요구 사항을 얼마나 잘 준수하는지 평가하는 데 사용할 수 있는 일련의 벤치마크인 최초의 "규정 준수 검사기"를 개발했습니다.

계속해서 구체화되고 있는 점을 고려하여유럽에서는 ETH 연구원들이 자신들의 연구 결과를 공개적으로 공개했습니다.공부하다에 게시됨arXiv사전 인쇄 서버.또한 그들은 AI 법의 시행 및 준수와 모델 평가에 핵심적인 역할을 하는 EU AI 사무국에 결과를 제공했습니다.

비전문가도 쉽게 이해할 수 있는 연구에서 연구자들은 먼저 핵심 용어를 명확히 한다.EU AI법에 명시된 6가지 핵심 윤리 원칙(인간 기관, 데이터 보호, 투명성, 다양성, 차별 금지, 공정성)에서 시작하여 기술적으로 명확한 12가지 관련 요구 사항을 도출하고 이를 27가지 최신 기술과 연결합니다.평가 벤치마크.

중요한 것은 AI 모델에 대한 구체적인 기술 점검이 덜 개발되었거나 심지어 존재하지 않는 영역을 지적하여 연구원, 모델 제공자 및 규제 기관 모두가 효과적인 EU AI Act 구현을 위해 이러한 영역을 더욱 추진하도록 장려한다는 것입니다.

추가 개선을 위한 원동력

연구원들은 벤치마크 접근 방식을 12개의 LLM(주요 언어 모델)에 적용했습니다.결과는 현재 분석된 언어 모델 중 EU AI법의 요구 사항을 완전히 충족하는 언어 모델이 없음을 분명히 보여줍니다."이러한 대규모 언어 모델을 비교하면 특히 견고성, 다양성, 공정성과 같은 요구 사항과 관련하여 단점이 있음이 드러납니다."라고 Staab은 말합니다.

이는 최근 몇 년간 모델 개발자와 연구자들이 공정성이나 차별 금지와 같은 윤리적 또는 사회적 요구 사항보다 일반적인 모델 기능과 성능에 주로 초점을 맞추었다는 사실과도 관련이 있습니다.

그러나 연구자들은 설명 가능성과 같은 핵심 AI 개념조차 불분명하다는 사실을 발견했습니다.실제로 복잡한 AI 모델의 결과가 어떻게 생성되었는지 설명하기 위한 적절한 도구가 부족합니다. 개념적으로 완전히 명확하지 않은 것은 기술적으로 평가하는 것도 거의 불가능합니다.

이 연구는 저작권 침해와 관련된 요구 사항을 포함한 다양한 기술적 요구 사항을 현재 안정적으로 측정할 수 없다는 점을 분명히 밝혔습니다.Staab의 경우 한 가지는 분명합니다. "모델 평가에 기능에만 초점을 맞추는 것만으로는 충분하지 않습니다."

즉, 연구원들의 시야는 기존 모델을 평가하는 것 이상으로 설정되어 있습니다.이들에게 EU AI법은 법안이 향후 AI 모델의 개발과 평가를 어떻게 변화시킬 것인지를 보여주는 첫 번째 사례입니다.

Vechev는 "우리는 우리의 작업이 AI 법의 시행을 가능하게 하고 모델 제공자를 위한 실용적인 권장 사항을 얻기 위한 원동력이라고 생각합니다"라고 말했습니다. "그러나 우리의 방법론은 EU AI 법을 뛰어넘을 수 있습니다.법률 제정."

"궁극적으로 우리는 능력과 같은 기술적 측면과 공정성과 포용성과 같은 윤리적 측면을 모두 고려하는 LLM의 균형 잡힌 개발을 장려하고 싶습니다."라고 Tsankov는 덧붙입니다.

연구원들은 기술 토론을 시작하기 위해 GitHub 웹 사이트에서 벤치마크 도구 COMPL-AI를 제공하고 있습니다.벤치마킹 결과와 방법을 분석하고 시각화할 수 있습니다."우리는 벤치마크 제품군을 다음과 같이 발표했습니다.업계와 과학계의 다른 연구자들이 참여할 수 있도록 말이죠."라고 Tsankov는 말합니다.

추가 정보:Philipp Guldimann 외, COMPL-AI 프레임워크: EU 인공 지능법에 대한 기술적 해석 및 LLM 벤치마킹 제품군,arXiv(2024).DOI: 10.48550/arxiv.2410.07959

저널 정보: arXiv

소환:연구원들은 EU 인공 지능법에 대한 LLM 벤치마킹 제품군을 제공합니다(2024년 10월 21일)2024년 10월 21일에 확인함https://techxplore.com/news/2024-10-llm-benchmarking-eu-artificial-intelligence.html에서

이 문서는 저작권의 보호를 받습니다.사적인 학습이나 조사를 목적으로 하는 공정한 거래를 제외하고는 어떠한 행위도 허용되지 않습니다.서면 허가 없이 일부를 복제할 수 있습니다.콘텐츠는 정보 제공 목적으로만 제공됩니다.