Los datos fantasma podrían mostrar a los titulares de derechos de autor si su trabajo está en datos de entrenamiento de IA

2024-07-29 15:49:43

Inspirándose en los cartógrafos del siglo XX, los investigadores de Imperial han demostrado una nueva forma de identificar el trabajo de los titulares de derechos de autor en los LLM.

language — Crédito: Google DeepMind de Pexels

Inspirándose en los cartógrafos del siglo XX, los investigadores de Imperial han demostrado una nueva forma de identificar el trabajo de los titulares de derechos de autor en los LLM.

La técnica se presentó en la Conferencia Internacional sobre Aprendizaje Automático en Viena esta semana y se detalla en estepreimpresiónen elarXivservidor.

La IA generativa está arrasando en el mundo y ya está transformando la vida cotidiana de millones de personas.

Sin embargo, hoy en día, la IA suele basarse en fundamentos legales "débiles" cuando se trata de datos de entrenamiento.Los modelos modernos de IA, como los modelos de lenguaje grande (LLM), requieren grandes cantidades de texto, imágenes y otras formas de contenido de Internet para lograr sus impresionantes capacidades.

En un nuevo artículo de expertos del Imperial College de Londres, los investigadores proponen un mecanismo para detectar el uso de datos para el entrenamiento de IA.

Esperan que el método propuesto sirva como un paso hacia una mayor apertura y transparencia en un campo de la IA generativa en rápida evolución y ayude a los autores a comprender mejor cómo se utilizan sus textos.

El investigador principal, el Dr. Yves-Alexandre de Montjoye, del Departamento de Computación de Imperial, dijo: "Inspirándonos en los creadores de mapas de principios del siglo XX, que pusieron ciudades fantasmas en sus mapas para detectar copias ilícitas, estudiamos cómo la inyección de derechos de autor"Las trampas" (oraciones ficticias únicas) en el texto original permiten la detectabilidad del contenido en un LLM capacitado".

En primer lugar, el propietario del contenido repetiría una trampa de derechos de autor varias veces en su colección de documentos (por ejemplo, artículos de noticias).Luego, si un desarrollador de LLM extrae los datos y entrena a unmodeloen él, el propietario de los datos podría demostrar con confianza el entrenamiento observando irregularidades en los resultados del modelo.

La propuesta es más adecuada para los editores en línea, quienes podrían ocultar la frase trampa de derechos de autor en todos los artículos de noticias, de modo que permanezca invisible para el lector, pero es probable que sea detectada por un raspador de datos.

Sin embargo, el Dr. de Montjoye enfatiza cómo los desarrolladores de LLM podrían desarrollar técnicas para eliminar trampas y evitar la detección.Con trampas incrustadas de varias maneras diferentes en todoartículos de noticias, eliminarlos todos con éxito probablemente requiera importantes recursos de ingeniería para mantenerse a la vanguardia de nuevas formas de integrarlos.

Para verificar la validez del enfoque, se asociaron con un equipo en Francia, entrenando a un "verdaderamente bilingue" LLM inglés-francés con parámetros 1.3B, que inyecta varias trampas de derechos de autor en el conjunto de entrenamiento de un modelo de lenguaje de última generación y eficiente en parámetros del mundo real. Los investigadores creen que el éxito de sus experimentos permite mejores herramientas de transparencia para elcampo de la formación LLM.

El coautor Igor Shilov, también del Departamento de Computación del Imperial College de Londres, añadió: "Las empresas de IA son cada vez más reacias a compartir información sobre sus datos de entrenamiento.datos de entrenamientoAunque la composición de GPT-3 y LLaMA (modelos más antiguos lanzados por OpenAI y Meta AI respectivamente) es conocida públicamente, ya no es el caso de los modelos más recientes GPT-4 y LLaMA-2."Los desarrolladores de LLM tienen pocos incentivos para ser abiertos sobre su procedimiento de capacitación, lo que lleva a una preocupante falta de transparencia (y por lo tanto a una participación justa en las ganancias), lo que hace que sea más importante que nunca tener herramientas para inspeccionar lo que se incluye en el proceso de capacitación".

El coautor Matthieu Meeus, también del Departamento de Computación del Imperial College de Londres, dijo: "Creemos que la cuestión de la transparencia en la capacitación en IA y las discusiones sobre una compensación justa para los creadores de contenido serán muy importantes para el futuro en el que la IA se construye de manera responsable.

Nuestra esperanza es que este trabajo sobre las trampas de los derechos de autor contribuya a una solución sostenible".

Más información:Matthieu Meeus et al, Trampas de derechos de autor para modelos de lenguaje grandes,arXiv(2024).DOI: 10.48550/arxiv.2402.09363

Información de la revista: arXiv

Citación:Los datos fantasma podrían mostrar a los titulares de derechos de autor si su trabajo está en los datos de entrenamiento de IA (2024, 29 de julio)recuperado el 29 de julio de 2024de https://techxplore.com/news/2024-07-phantom-copyright-holders-ai.html

Este documento está sujeto a derechos de autor.Aparte de cualquier trato justo con fines de estudio o investigación privados, noparte puede ser reproducida sin el permiso por escrito.El contenido se proporciona únicamente con fines informativos.