El 'desaprendizaje' de la máquina ayuda a la IA generativa a olvidar el contenido violento y protegido por derechos de autor

2024-03-22 17:09:40

Cuando las personas aprenden cosas que no deberían saber, lograr que olviden esa información puede resultar difícil.Esto también se aplica a los programas de inteligencia artificial de rápido crecimiento que están entrenados para pensar como nosotros, y se ha convertido en un problema a medida que se topan con desafíos basados en el uso de material protegido por derechos de autor y cuestiones de privacidad.

Machine 'unlearning' helps generative AI forget copyright-protected and violent content — Crédito:*arXiv*(2024).DOI: 10.48550/arxiv.2402.00351

Para responder a este desafío, investigadores de la Universidad de Texas en Austin han desarrollado lo que creen que es el primer método de "desaprendizaje automático" aplicado a la IA generativa basada en imágenes.Este método ofrece la posibilidad de mirar debajo del capó y bloquear y eliminar activamente cualquier imagen violenta u obra con derechos de autor sin perder el resto de la información del modelo.El estudio espublicadoen elarXivservidor de preimpresión.

"Cuando se entrenan estos modelos en conjuntos de datos tan masivos, es probable que se incluyan algunos datos que no son deseables", dijo Radu Marculescu, profesor del Departamento de Ingeniería Eléctrica e Informática de la Familia Chandra de la Escuela de Ingeniería Cockrell y uno de los líderes.en el proyecto.

"Anteriormente, la única forma de eliminar contenido problemático era desechar todo, comenzar de nuevo, extraer manualmente todos esos datos y volver a entrenar el modelo. Nuestro enfoque ofrece la oportunidad de hacer esto sin tener que volver a entrenar el modelo desde cero".

Los modelos de IA generativa se entrenan principalmente con datos de Internet debido a la incomparable cantidad de información que contienen.Pero también contiene enormes cantidades de datos protegidos por derechos de autor, además deinformación personaly contenido inapropiado.

Subrayando esta cuestión, The New York Times recientemente demandó a OpenAI, fabricante de ChatGPT, argumentando que la compañía de inteligencia artificial utilizó ilegalmente sus artículos como datos de entrenamiento para ayudar a sus chatbots a generar contenido.

"Si queremos que los modelos generativos de IA sean útiles para fines comerciales, este es un paso que debemos incorporar: la capacidad de garantizar que no infringimos las leyes de derechos de autor ni abusamos de la información personal ni utilizamos contenido dañino", dijo Guihong Li.asistente de investigación graduado en el laboratorio de Marculescu que trabajó en el proyecto como pasante en JPMorgan Chase y lo finalizó en UT.

Los modelos de imagen a imagen son el foco principal de esta investigación.Toman una imagen de entrada y la transforman, como crear un boceto, cambiar una escena en particular y más, según un contexto o instrucción determinados.

Este nuevo algoritmo de desaprendizaje automático proporciona la capacidad de un modelo de aprendizaje automático de "olvidar" o eliminar contenido si se marca por cualquier motivo sin necesidad de volver a entrenar el modelo desde cero.Los equipos humanos se encargan de la moderación y eliminación del contenido, lo que proporciona una verificación adicional del modelo y la capacidad de responder a los comentarios de los usuarios.

El desaprendizaje automático es una rama en evolución del campo que se ha aplicado principalmente a los modelos de clasificación.Esos modelos están entrenados para clasificar datos en diferentes categorías, como si una imagen muestra un perro o un gato.

La aplicación del desaprendizaje automático a modelos generativos es "relativamente inexplorada", escriben los investigadores en el artículo, especialmente cuando se trata de imágenes.

Más información:Guihong Li et al, Desaprendizaje automático para modelos generativos de imagen a imagen,arXiv(2024).DOI: 10.48550/arxiv.2402.00351

Información de la revista: arXiv

Citación:El 'desaprendizaje' de la máquina ayuda a la IA generativa a olvidar el contenido violento y protegido por derechos de autor (2024, 22 de marzo)recuperado el 22 de marzo de 2024de https://techxplore.com/news/2024-03-machine-unlearning-generative-ai-copyright.html

Este documento está sujeto a derechos de autor.Aparte de cualquier trato justo con fines de estudio o investigación privados, noparte puede ser reproducida sin el permiso por escrito.El contenido se proporciona únicamente con fines informativos.