LLM benchmarking suite for the EU Artificial Intelligence Act
Descripción general de COMPL-AI.Crédito:arXiv(2024).DOI: 10.48550/arxiv.2410.07959

Investigadores de ETH Zurich, el instituto búlgaro de investigación de IA INSAIT, creado en asociación con ETH y EPFL, y el spin-off de ETH, LatticeFlow AI, han proporcionado la primera interpretación técnica integral de los modelos de la Ley de IA de la UE para IA de propósito general (GPAI)..Esto los convierte en los primeros en traducir los requisitos legales que la UE impone a los futuros modelos de IA en requisitos técnicos concretos, medibles y verificables.

Esta traducción es muy relevante para el proceso de implementación posterior de la Ley de IA de la UE: los investigadores presentan unapara que los desarrolladores de modelos vean qué tan alineados están con los futuros requisitos legales de la UE.Esta traducción de requisitos regulatorios de alto nivel a puntos de referencia realmente ejecutables no ha existido hasta el momento y, por lo tanto, puede servir como un punto de referencia importante tanto paraasí como el Código de prácticas de la Ley de IA de la UE, actualmente en desarrollo.

Los investigadores probaron su enfoque en 12 modelos populares de IA generativa, como ChatGPT, Llama, Claude o Mistral; después de todo, estos(LLM) han contribuido enormemente a la creciente popularidad y distribución de la inteligencia artificial (IA) en la vida cotidiana, ya que su uso es muy capaz e intuitivo.

Con la creciente distribución de estos y otros modelos de IA, también aumentan los requisitos éticos y legales para el uso responsable de la IA: por ejemplo, surgen cuestiones delicadas con respecto a, protección de la privacidad y transparencia de los modelos de IA.Los modelos no deben ser "cajas negras", sino más bien ofrecer resultados que sean lo más explicables y rastreables posible.

La implementación de la Ley de IA debe ser técnicamente clara

Además, deberían funcionar de manera justa y no discriminar a nadie.En este contexto, la Ley de IA de la UE, que la UE adoptó en marzo de 2024, es el primer paquete legislativo de IA del mundo que busca de manera integral maximizar la confianza pública en estas tecnologías y minimizar sus riesgos y efectos secundarios indeseables.

"La Ley de IA de la UE es un paso importante hacia el desarrollo de una IA responsable y fiable", afirma Martin Vechev, profesor de informática de la ETH, director del Laboratorio de sistemas seguros, fiables e inteligentes y fundador de INSAIT, "pero hasta ahora carecemos de una ley clara yInterpretación técnica precisa de los requisitos legales de alto nivel de la Ley de IA de la UE.

"Esto dificulta tanto el desarrollo de modelos de IA que cumplan con la ley como la evaluación de hasta qué punto estos modelos cumplen realmente con la legislación".

La Ley de IA de la UE establece un marco legal claro para contener los riesgos de la llamada Inteligencia Artificial de Propósito General (GPAI).Se refiere a modelos de IA que son capaces de ejecutar una amplia gama de tareas.Sin embargo, la ley no especifica cómo deben interpretarse técnicamente los requisitos legales generales.Los estándares técnicos aún se están desarrollando hasta que las regulaciones para los modelos de IA de alto riesgo entren en vigor en agosto de 2026.

"Sin embargo, el éxito de la implementación de la Ley de IA dependerá en gran medida de qué tan bien logre desarrollar requisitos técnicos concretos y precisos y puntos de referencia centrados en el cumplimiento para los modelos de IA", afirma Petar Tsankov, director ejecutivo y, junto con Vechev, fundador de ETH.spin-off LatticeFlow AI, que se ocupa de la implementación de IA confiable en la práctica.

"Si no existe una interpretación estándar de lo que significan exactamente términos clave como seguridad, explicabilidad o trazabilidad en los modelos de IA (GP), entonces no queda claro para los desarrolladores de modelos si sus modelos de IA funcionan de conformidad con la Ley de IA", añade Robin Staab., informático y estudiante de doctorado en el grupo de investigación de Vechev.

La prueba de 12 modelos lingüísticos revela deficiencias

La metodología desarrollada por los investigadores de ETH ofrece un punto de partida y una base para la discusión.Los investigadores también han desarrollado un primer "verificador de cumplimiento", un conjunto de puntos de referencia que pueden usarse para evaluar qué tan bien los modelos de IA cumplen con los requisitos probables de la Ley de IA de la UE.

En vista de la concreción en curso de laEn Europa, los investigadores de ETH han hecho públicos sus hallazgos en unestudiarpublicado en elarXivservidor de preimpresión.También pusieron sus resultados a disposición de la Oficina de IA de la UE, que desempeña un papel clave en la implementación y el cumplimiento de la Ley de IA y, por tanto, también para la evaluación del modelo.

En un estudio que en gran medida es comprensible incluso para los no expertos, los investigadores primero aclaran los términos clave.A partir de seis principios éticos centrales especificados en la Ley de IA de la UE (agencia humana, protección de datos, transparencia, diversidad, no discriminación, equidad), derivan 12 requisitos asociados y técnicamente claros y los vinculan con 27 requisitos más recientes.puntos de referencia de evaluación.

Es importante destacar que también señalan en qué áreas los controles técnicos concretos para los modelos de IA están menos desarrollados o incluso son inexistentes, alentando tanto a los investigadores como a los proveedores de modelos y a los reguladores a seguir impulsando estas áreas para una implementación efectiva de la Ley de IA de la UE.

Impulso para seguir mejorando

Los investigadores aplicaron su enfoque de referencia a 12 modelos de lenguaje destacados (LLM).Los resultados dejan claro que ninguno de los modelos lingüísticos analizados hoy cumple plenamente los requisitos de la Ley de IA de la UE."Nuestra comparación de estos grandes modelos lingüísticos revela que existen deficiencias, especialmente en lo que respecta a requisitos como solidez, diversidad y equidad", afirma Staab.

Esto también tiene que ver con el hecho de que, en los últimos años, los desarrolladores e investigadores de modelos se centraron principalmente en las capacidades y el rendimiento generales del modelo por encima de requisitos más éticos o sociales como la equidad o la no discriminación.

Sin embargo, los investigadores han descubierto que incluso conceptos clave de la IA, como la explicabilidad, no están claros.En la práctica, faltan herramientas adecuadas para explicar posteriormente cómo se obtuvieron los resultados de un modelo de IA complejo: lo que conceptualmente no está del todo claro, también es casi imposible de evaluar técnicamente.

El estudio deja claro que actualmente no es posible medir de forma fiable diversos requisitos técnicos, incluidos los relacionados con la infracción de derechos de autor.Para Staab, una cosa está clara: "No basta con centrar la evaluación del modelo únicamente en las capacidades".

Dicho esto, la mirada de los investigadores está puesta en algo más que simplemente evaluar los modelos existentes.Para ellos, la Ley de IA de la UE es un primer ejemplo de cómo la legislación cambiará el desarrollo y la evaluación de modelos de IA en el futuro.

"Consideramos nuestro trabajo como un impulso para permitir la implementación de la Ley de IA de la UE y obtener recomendaciones viables para los proveedores de modelos", dice Vechev, "pero nuestra metodología puede ir más allá de la Ley de IA de la UE, ya que también es adaptable a otras comparables".legislación."

"En última instancia, queremos fomentar un desarrollo equilibrado de los LLM que tenga en cuenta tanto aspectos técnicos como la capacidad como aspectos éticos como la equidad y la inclusión", añade Tsankov.

Los investigadores están poniendo a disposición su herramienta de referencia COMPL-AI en un sitio web de GitHub para iniciar la discusión técnica.Allí se pueden analizar y visualizar los resultados y métodos de su evaluación comparativa."Hemos publicado nuestro conjunto de pruebas de referencia comopara que puedan participar otros investigadores de la industria y de la comunidad científica", afirma Tsankov.

Más información:Philipp Guldimann et al, Marco COMPL-AI: una interpretación técnica y un conjunto de evaluaciones comparativas de LLM para la Ley de Inteligencia Artificial de la UE,arXiv(2024).DOI: 10.48550/arxiv.2410.07959

Información de la revista: arXiv

Citación:Los investigadores proporcionan un conjunto de evaluaciones comparativas de LLM para la Ley de Inteligencia Artificial de la UE (21 de octubre de 2024)recuperado el 21 de octubre de 2024de https://techxplore.com/news/2024-10-llm-benchmarking-eu-artificial-intelligence.html

Este documento está sujeto a derechos de autor.Aparte de cualquier trato justo con fines de estudio o investigación privados, noparte puede ser reproducida sin el permiso por escrito.El contenido se proporciona únicamente con fines informativos.