LLM benchmarking suite for the EU Artificial Intelligence Act
COMPL-AI 概述。信用:arXiv(2024)。DOI:10.48550/arxiv.2410.07959

来自苏黎世联邦理工学院、保加利亚人工智能研究机构 INSAIT(与 ETH 和 EPFL 合作创建)以及 ETH 衍生公司 LatticeFlow AI 的研究人员首次对欧盟通用人工智能法案 (GPAI) 模型进行了全面的技术解释。这使他们成为第一个将欧盟对未来人工智能模型的法律要求转化为具体、可衡量和可验证的技术要求的公司。

这样的翻译对于欧盟人工智能法案的进一步实施进程非常相关:研究人员提出了一个让模型开发人员了解它们与未来欧盟法律要求的一致性。这种从监管高层要求到实际可运行基准的转换迄今为止还不存在,因此可以作为两者的重要参考点以及目前正在制定的欧盟人工智能法案实践守则。

研究人员在 ChatGPT、Llama、Claude 或 Mistral 等 12 种流行的生成式 AI 模型上测试了他们的方法,毕竟,这些模型法学硕士(LLM)为人工智能(AI)在日常生活中的日益普及和普及做出了巨大贡献,因为它们功能强大且使用直观。

随着这些以及其他人工智能模型的日益普及,负责任地使用人工智能的道德和法律要求也在不断增加:例如,出现了以下敏感问题:、隐私保护和AI模型的透明度。模型不应该是“黑匣子”,而应该提供尽可能可解释和可追溯的结果。

人工智能法案的实施必须在技术上明确

此外,他们应该公平运作,不歧视任何人。在此背景下,欧盟于 2024 年 3 月通过的《欧盟人工智能法案》是世界上第一个人工智能立法方案,全面寻求最大限度地提高公众对这些技术的信任,并最大限度地减少其不良风险和副作用。

ETH 计算机科学教授、安全、可靠和智能系统实验室负责人、INSAIT 创始人 Martin Vechev 表示:“《欧盟人工智能法案》是朝着开发负责任和值得信赖的人工智能迈出的重要一步,但到目前为止,我们还缺乏一个明确且可靠的法案。”对欧盟人工智能法案高级法律要求的精确技术解释。

“这使得开发符合法律的人工智能模型和评估这些模型实际遵守立法的程度变得困难。”

欧盟人工智能法案制定了明确的法律框架来遏制所谓通用人工智能(GPAI)的风险。这是指能够执行多种任务的人工智能模型。然而,该法案没有具体说明如何从技术上解释广泛的法律要求。技术标准仍在制定中,直至2026年8月高风险人工智能模型法规生效。

ETH 创始人兼首席执行官 Petar Tsankov 表示:“然而,《人工智能法案》实施的成功将在很大程度上取决于它能否成功地为人工智能模型制定具体、精确的技术要求和以合规为中心的基准。”其衍生产品 LatticeFlow AI,致力于在实践中实施值得信赖的人工智能。

Robin Staab 补充道:“如果对 (GP)AI 模型中的安全性、可解释性或可追溯性等关键术语的确切含义没有标准解释,那么模型开发人员仍不清楚他们的 AI 模型的运行是否符合 AI 法案。”,Vechev 研究小组的计算机科学家和博士生。

12种语言模型测试暴露缺陷

ETH 研究人员开发的方法为讨论提供了起点和基础。研究人员还开发了第一个“合规性检查器”,这是一组基准,可用于评估人工智能模型遵守欧盟人工智能法案可能要求的程度。

鉴于该计划的不断具体化在欧洲,联邦理工学院的研究人员已将他们的发现公开发布在学习发布到arXiv预印本服务器。他们还将结果提供给欧盟人工智能办公室,该办公室在人工智能法案的实施和遵守方面发挥着关键作用,因此也对模型评估发挥着关键作用。

在一项即使非专家也基本上可以理解的研究中,研究人员首先澄清了关键术语。从欧盟人工智能法案中规定的六项核心道德原则(人类机构、数据保护、透明度、多样性、非歧视、公平)出发,他们得出了 12 项相关的、技术上明确的要求,并将这些要求与 27 项最先进的技术联系起来。评估基准。

重要的是,他们还指出了哪些领域对人工智能模型的具体技术检查不够完善甚至不存在,鼓励研究人员、模型提供商和监管机构进一步推动这些领域有效实施欧盟人工智能法案。

进一步改进的动力

研究人员将他们的基准方法应用于 12 种著名的语言模型 (LLM)。结果清楚地表明,今天分析的语言模型都完全符合欧盟人工智能法案的要求。“我们对这些大型语言模型的比较表明它们存在缺陷,特别是在鲁棒性、多样性和公平性等要求方面,”斯塔布说。

这也与这样一个事实有关:近年来,模型开发人员和研究人员主要关注一般模型的功能和性能,而不是更多的道德或社会要求,例如公平或非歧视。

然而,研究人员发现,即使是关键的人工智能概念(例如可解释性)也不清楚。在实践中,缺乏合适的工具来解释复杂人工智能模型的结果是如何产生的:概念上不完全清楚的东西几乎不可能在技术上进行评估。

该研究清楚地表明,目前无法可靠地衡量各种技术要求,包括与版权侵权相关的技术要求。对于 Staab 来说,有一件事是明确的:“仅将模型评估重点放在能力上是不够的。”

也就是说,研究人员的目标不仅仅是评估现有模型。对他们来说,欧盟人工智能法案是立法将如何改变未来人工智能模型的开发和评估的第一个案例。

Vechev 表示:“我们认为我们的工作是实施《人工智能法案》并为模型提供商获得切实可行的建议的推动力,但我们的方法可以超越《欧盟人工智能法案》,因为它也适用于其他类似的法案立法。”

“最终,我们希望鼓励法学硕士的平衡发展,既考虑到能力等技术方面,也考虑到公平和包容等道德方面,”桑科夫补充道。

研究人员正在 GitHub 网站上提供他们的基准工具 COMPL-AI,以发起技术讨论。可以在那里分析和可视化其基准测试的结果和方法。“我们已经将我们的基准套件发布为这样来自工业界和科学界的其他研究人员就可以参与其中,”Tsankov 说。

更多信息:Philipp Guldimann 等人,COMPL-AI 框架:欧盟人工智能法案的技术解释和法学硕士基准套件,arXiv(2024)。DOI:10.48550/arxiv.2410.07959

期刊信息: arXiv

引文:研究人员为欧盟人工智能法案提供法学硕士基准测试套件(2024 年,10 月 21 日)检索日期:2024 年 10 月 21 日来自 https://techxplore.com/news/2024-10-llm-benchmarking-eu-artificial-intelligence.html

本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外,不得未经书面许可,不得复制部分内容。所提供的内容仅供参考。