LLM benchmarking suite for the EU Artificial Intelligence Act
COMPL-AI 概述。信用:arXiv(2024)。DOI:10.48550/arxiv.2410.07959

來自蘇黎世聯邦理工學院、保加利亞人工智慧研究機構 INSAIT(與 ETH 和 EPFL 合作創建)以及 ETH 衍生公司 LatticeFlow AI 的研究人員首次對歐盟通用人工智慧法案 (GPAI) 模型進行了全面的技術解釋。這使他們成為第一個將歐盟對未來人工智慧模型的法律要求轉化為具體、可衡量和可驗證的技術要求的公司。

這樣的翻譯對於歐盟人工智慧法案的進一步實施過程非常相關:研究人員提出了一個讓模型開發人員了解它們與未來歐盟法律要求的一致性。這種從監管高層要求到實際可運行基準的轉換迄今為止還不存在,因此可以作為兩者的重要參考點以及目前正在製定的歐盟人工智慧法案實踐守則。

研究人員在 ChatGPT、Llama、Claude 或 Mistral 等 12 種流行的生成式 AI 模型上測試了他們的方法,畢竟,這些模型法學碩士(LLM)為人工智慧(AI)在日常生活中的日益普及和普及做出了巨大貢獻,因為它們功能強大且使用直觀。

隨著這些以及其他人工智慧模型的日益普及,負責任地使用人工智慧的道德和法律要求也在增加:例如,出現了以下敏感問題:、隱私保護和AI模型的透明度。模型不應該是“黑盒子”,而應該提供盡可能可解釋和可追溯的結果。

人工智慧法案的實施必須在技術上明確

此外,他們應該公平運作,不歧視任何人。在此背景下,歐盟於2024 年3 月通過的《歐盟人工智慧法案》是世界上第一個人工智慧立法方案,全面尋求最大限度地提高公眾對這些技術的信任,並最大限度地減少其不良風險和副作用。

ETH 電腦科學教授、安全、可靠和智慧系統實驗室負責人、INSAIT 創辦人Martin Vechev 表示:「《歐盟人工智慧法案》是朝著開發負責任且值得信賴的人工智慧邁出的重要一步,但到目前為止,我們還缺乏一個明確且可靠的法案。

“這使得開發符合法律的人工智慧模型和評估這些模型實際遵守立法的程度變得困難。”

歐盟人工智慧法案製定了明確的法律框架來遏制所謂通用人工智慧(GPAI)的風險。這是指能夠執行多種任務的人工智慧模型。然而,該法案並沒有具體說明如何從技術上解釋廣泛的法律要求。技術標準仍在製定中,直至2026年8月高風險人工智慧模型法規生效。

ETH 創辦人兼執行長Petar Tsankov 表示:「然而,《人工智慧法案》實施的成功將在很大程度上取決於它能否成功地為人工智慧模型製定具體、精確的技術要求和以合規為中心的基準。

Robin Staab 補充說:「如果對(GP)AI 模型中的安全性、可解釋性或可追溯性等關鍵術語的確切含義沒有標準解釋,那麼模型開發人員仍不清楚他們的AI 模型的運行是否符合AI 法案。

12種語言模型測試暴露缺陷

ETH 研究人員開發的方法為討論提供了起點和基礎。研究人員還開發了第一個“合規性檢查器”,這是一組基準,可用於評估人工智慧模型遵守歐盟人工智慧法案可能要求的程度。

鑑於該計劃的不斷具體化在歐洲,聯邦理工學院的研究人員已將他們的發現公開發佈在學習發佈到arXiv預印本伺服器。他們還將結果提供給歐盟人工智慧辦公室,該辦公室在人工智慧法案的實施和遵守方面發揮關鍵作用,因此也對模型評估發揮關鍵作用。

在一項即使非專家基本上也可以理解的研究中,研究人員首先澄清了關鍵術語。從歐盟人工智慧法案中規定的六項核心道德原則(人類機構、資料保護、透明度、多樣性、非歧視、公平)出發,他們得出了12 項相關的、技術上明確的要求,並將這些要求與27 項最先進的技術連結。

重要的是,他們還指出了哪些領域對人工智慧模型的具體技術檢查不夠完善甚至不存在,鼓勵研究人員、模型提供者和監管機構進一步推動這些領域有效實施歐盟人工智慧法案。

進一步改進的動力

研究人員將他們的基準方法應用於 12 種著名的語言模型 (LLM)。結果清楚地表明,今天分析的語言模型都完全符合歐盟人工智慧法案的要求。「我們對這些大型語言模型的比較表明它們存在缺陷,特別是在魯棒性、多樣性和公平性等要求方面,」斯塔布說。

這也與這樣一個事實有關:近年來,模型開發人員和研究人員主要關註一般模型的功能和性能,而不是更多的道德或社會要求,例如公平或非歧視。

然而,研究人員發現,即使是關鍵的人工智慧概念(例如可解釋性)也不清楚。在實踐中,缺乏合適的工具來解釋複雜人工智慧模型的結果是如何產生的:概念上不完全清楚的東西幾乎不可能在技術上進行評估。

該研究清楚表明,目前無法可靠地衡量各種技術要求,包括與版權侵權相關的技術要求。對於 Staab 來說,有一件事是明確的:“僅將模型評估重點放在能力上是不夠的。”

也就是說,研究人員的目標不僅僅是評估現有模型。對他們來說,歐盟人工智慧法案是立法將如何改變未來人工智慧模型的開發和評估的第一個案例。

Vechev 表示:「我們認為我們的工作是實施《人工智慧法案》並為模型提供者獲得切實可行的建議的推動力,但我們的方法可以超越《歐盟人工智慧法案》,因為它也適用於其他類似的法案立法。

「最終,我們希望鼓勵法學碩士的平衡發展,既考慮到能力等技術方面,也考慮到公平和包容等道德方面,」桑科夫補充道。

研究人員正在 GitHub 網站上提供他們的基準工具 COMPL-AI,以發起技術討論。可以在那裡分析和視覺化其基準測試的結果和方法。「我們已經將我們的基準套件發佈為這樣來自工業界和科學界的其他研究人員就可以參與其中,」Tsankov 說。

更多資訊:Philipp Guldimann 等人,COMPL-AI 框架:歐盟人工智慧法案的技術解釋和法學碩士基準套件,arXiv(2024)。DOI:10.48550/arxiv.2410.07959

期刊資訊: arXiv

引文:研究人員為歐盟人工智慧法案提供法學碩士基準測試套件(2024 年,10 月 21 日)檢索日期:2024 年 10 月 21 日來自 https://techxplore.com/news/2024-10-llm-benchmarking-eu-artificial-intelligence.html

本文檔受版權保護。除了出於私人學習或研究目的的任何公平交易外,不得未經書面許可,不得複製部分內容。所提供的內容僅供參考。