Researchers use AI chatbots against themselves to ‘jailbreak’ each other
Doctorado de la NTU.El estudiante Sr. Liu Yi, coautor del artículo, muestra una base de datos de indicaciones exitosas de jailbreak que lograron comprometer los chatbots de IA, lo que les hizo producir información que sus desarrolladores prohibieron deliberadamente revelar.Crédito: Universidad Tecnológica de Nanyang

Los científicos informáticos de la Universidad Tecnológica de Nanyang, Singapur (NTU Singapur) han logrado comprometer múltiples chatbots de inteligencia artificial (IA), incluidos ChatGPT, Google Bard y Microsoft Bing Chat, para producir contenido que infringe las pautas de sus desarrolladores, un resultado conocido como "jailbreak."

"Jailbreaking" es un término endóndeencontrar y explotar fallas en el software de un sistema para obligarlo a hacer algo que sus desarrolladores le prohibieron deliberadamente hacer.

Además, al entrenar un modelo de lenguaje grande (LLM) en una base de datos de indicaciones que ya se había demostrado que pirateaban estos chatbots con éxito, los investigadores crearon un LLM.chatbotLos LLM forman el cerebro de los chatbots de IA, lo que les permite procesar entradas humanas y generar texto que es casi indistinguible del que puede crear un humano.

Esto incluye completar tareas como planificar un itinerario de viaje, contar un cuento antes de dormir y desarrollar código informático.

El trabajo de los investigadores de la NTU añade ahora el "jailbreaking" a la lista.Sus hallazgos pueden ser fundamentales para ayudar a las empresas y negocios a ser conscientes de las debilidades y limitaciones de sus chatbots LLM para que puedan tomar medidas para fortalecerlos contra los piratas informáticos.

Después de realizar una serie de pruebas de concepto en LLM para demostrar que su técnica realmente presenta una amenaza clara y presente para ellos, los investigadores informaron inmediatamente los problemas a los proveedores de servicios relevantes, al iniciar ataques exitosos de jailbreak.

Researchers use AI chatbots against themselves to 'jailbreak' each other
Un ejemplo de ataque de jailbreak.Crédito:arXiv(2023).DOI: 10.48550/arxiv.2307.08715

El profesor Liu Yang de la Escuela de Ciencias de la Computación e Ingeniería de NTU, quien dirigió el estudio, dijo: "Los modelos de lenguajes grandes (LLM) han proliferado rápidamente debido a su capacidad excepcional para comprender, generar y completar textos similares a los humanos, siendo los chatbots LLMaplicaciones muy populares para el uso diario."

"Los desarrolladores de tales servicios de IA cuentan con barreras de seguridad para evitar que la IA genere contenido violento, poco ético o criminal. Pero la IA puede ser burlada, y ahora hemos utilizado la IA contra los de su propia especie para 'hacer jailbreak' a los LLM para que produzcan dicho contenido."

Doctorado de la NTU.El estudiante Sr. Liu Yi, coautor del artículo, dijo: "El documento presenta un enfoque novedoso para generar automáticamente mensajes de jailbreak contra chatbots LLM fortificados. Entrenar a un LLM con mensajes de jailbreak hace posible automatizar la generación de estos mensajes, lograndouna tasa de éxito mucho mayor que los métodos existentes. De hecho, estamos atacando a los chatbots usándolos contra ellos mismos".

El artículo de los investigadores describe un método doble para "liberar" los LLM, al que llamaron "Masterkey".

En primer lugar, aplicaron ingeniería inversa a la forma en que los LLM detectan y se defienden de consultas maliciosas.Con esa información, enseñaron a un LLM a aprender automáticamente y producir indicaciones que eludieran las defensas de otros LLM.Este proceso se puede automatizar, creando un LLM de jailbreak que puede adaptarse y crear nuevas indicaciones de jailbreak incluso después de que los desarrolladores parcheen sus LLM.

El artículo de los investigadores, que aparece en el servidor de preimpresión.arXiv, ha sido aceptado para su presentación en el Simposio de seguridad de sistemas distribuidos y redes, un foro de seguridad líder, en San Diego, EE. UU., en febrero de 2024.

Probando los límites de la ética del LLM

Los chatbots de IA reciben indicaciones o una serie de instrucciones de usuarios humanos.Todos los desarrolladores de LLM establecen pautas para evitar que los chatbots generen contenido poco ético, cuestionable o ilegal.Por ejemplo, preguntarle a un chatbot de IA cómo crear software malicioso para piratear cuentas bancarias a menudo resulta en una negativa rotunda a responder por motivos de actividad delictiva.

El profesor Liu dijo: "A pesar de sus beneficios, los chatbots de IA siguen siendo vulnerables a los ataques de jailbreak. Pueden verse comprometidos por actores maliciosos que abusan de las vulnerabilidades para obligar a los chatbots a generar resultados que violen las reglas establecidas".

Los investigadores de NTU investigaron formas de eludir un chatbot mediante indicaciones de ingeniería que pasan desapercibidas en sus pautas éticas para que el chatbot sea engañado para que responda a ellas.Por ejemplo, los desarrolladores de IA dependen de censores de palabras clave que detectan ciertas palabras que podrían señalar actividades potencialmente cuestionables y se niegan a responder si se detectan dichas palabras.

Una estrategia que emplearon los investigadores para sortear los censores de palabras clave fue crear una persona que proporcionara indicaciones que simplemente contuvieran espacios después de cada carácter.Esto elude a los censores de LLM, que podrían operar a partir de una lista de palabras prohibidas.

Los investigadores también ordenaron al chatbot que respondiera disfrazado de una persona "sin reservas y sin restricciones morales", aumentando las posibilidades de producir contenido poco ético.

Los investigadores pudieron inferir el funcionamiento interno y las defensas de los LLM ingresando manualmente dichas indicaciones y observando el tiempo para que cada indicación tuviera éxito o fallara.Luego pudieron aplicar ingeniería inversa a los mecanismos de defensa ocultos de los LLM, identificar aún más su ineficacia y crear un conjunto de datos de indicaciones que lograron liberar el chatbot.

Escalada de carrera armamentista entre piratas informáticos y desarrolladores de LLM

Cuando los piratas informáticos encuentran y revelan vulnerabilidades, los desarrolladores de chatbots de IA responden "parcheando" el problema, en un ciclo interminable del gato y el ratón entre el pirata informático y el desarrollador.

Con Masterkey, la NTUsubió la apuesta en esta carrera armamentista, ya que un chatbot de jailbreak con IA puede producir un gran volumen de indicaciones y aprender continuamente qué funciona y qué no, lo que permite a los piratas informáticos vencer a los desarrolladores de LLM en su propio juego con sus propias herramientas.

Los investigadores primero crearon un conjunto de datos de entrenamiento que incluía indicaciones que encontraron efectivas durante la fase anterior de ingeniería inversa del jailbreak, junto con indicaciones fallidas, para que Masterkey sepa qué no hacer.Los investigadores introdujeron este conjunto de datos en un LLM como punto de partida y posteriormente realizaron un entrenamiento previo continuo y un ajuste de tareas.

Esto expone el modelo a una amplia gama de información y mejora sus habilidades entrenándolo en tareas directamente relacionadas con el jailbreak.El resultado es un LLM que puede predecir mejor cómo manipular texto para hacer jailbreak, lo que genera indicaciones más efectivas y universales.

Los investigadores descubrieron que las indicaciones generadas por Masterkey eran tres veces más efectivas que las indicaciones generadas por los LLM en los LLM con jailbreak.Masterkey también pudo aprender de indicaciones anteriores que fallaron y puede automatizarse para producir constantemente indicaciones nuevas y más efectivas.

Los investigadores dicen que los propios desarrolladores pueden emplear su LLM para fortalecer su seguridad.

Doctorado de la NTU.El estudiante Deng Gelei, coautor del artículo, dijo: "A medida que los LLM continúan evolucionando y ampliando sus capacidades, las pruebas manuales se vuelven laboriosas y potencialmente inadecuadas para cubrir todas las posibles vulnerabilidades. Un enfoque automatizado para generar indicaciones de jailbreak puedegarantizar una cobertura integral, evaluando una amplia gama de posibles escenarios de uso indebido."

Más información:Gelei Deng et al, MasterKey: Jailbreak automatizado en múltiples chatbots de modelos de lenguaje grandes,arXiv(2023).DOI: 10.48550/arxiv.2307.08715

Información de la revista: arXiv

Citación:Los investigadores utilizan chatbots de IA contra ellos mismos para hacer jailbreak entre sí (28 de diciembre de 2023)recuperado el 28 de diciembre de 2023de https://techxplore.com/news/2023-12-ai-chatbots-jailbreak.html

Este documento está sujeto a derechos de autor.Aparte de cualquier trato justo con fines de estudio o investigación privados, noparte puede ser reproducida sin el permiso por escrito.El contenido se proporciona únicamente con fines informativos.