Una técnica sencilla para defender ChatGPT contra ataques de jailbreak

2024-01-18 11:51:10

Los modelos de lenguaje grande (LLM), modelos basados en aprendizaje profundo entrenados para generar, resumir, traducir y procesar textos escritos, han ganado una atención significativa después del lanzamiento de la plataforma conversacional ChatGPT de Open AI.Si bien ChatGPT y plataformas similares ahora se utilizan ampliamente para una amplia gama de aplicaciones, podrían ser vulnerables a un tipo específico de ciberataque que produzca respuestas sesgadas, poco confiables o incluso ofensivas.

A simple technique to defend ChatGPT against jailbreak attacks — Ejemplo de un ataque de jailbreak y el recordatorio en modo sistema propuesto por el equipo.Crédito:*Inteligencia de la máquina de la naturaleza*(2023).DOI: 10.1038/s42256-023-00765-8.

Investigadores de la Universidad de Ciencia y Tecnología de Hong Kong, la Universidad de Ciencia y Tecnología de China, la Universidad de Tsinghua y Microsoft Research Asia llevaron a cabo recientemente un estudio que investiga el impacto potencial de estos ataques y las técnicas que podrían proteger los modelos contra ellos.Supapel, publicado enInteligencia de la máquina de la naturaleza, presenta una nueva técnica inspirada en la psicología que podría ayudar a proteger ChatGPT y plataformas conversacionales similares basadas en LLM de ataques cibernéticos.

"ChatGPT es una herramienta de inteligencia artificial de impacto social con millones de usuarios e integración en productos como Bing", escriben Yueqi Xie, Jingwei Yi y sus colegas en su artículo."Sin embargo, la aparición defugaataques amenazan especialmente su uso responsable y seguro.Los ataques de jailbreak utilizan indicaciones adversas para eludir las salvaguardas éticas de ChatGPT y generar respuestas dañinas".

El objetivo principal del trabajo reciente de Xie, Yi y sus colegas fue resaltar el impacto que los ataques de jailbreak pueden tener en ChatGPT e introducir estrategias de defensa viables contra estos ataques.Los ataques de jailbreak esencialmente explotan las vulnerabilidades de los LLM para eludir las restricciones establecidas por los desarrolladores y provocar respuestas modelo que normalmente estarían restringidas.

"Este artículo investiga los problemas graves, aunque poco explorados, creados por los jailbreaks, así como las posibles técnicas defensivas", explican Xie, Yi y sus colegas en su artículo."Presentamos un conjunto de datos de jailbreak con varios tipos de mensajes de jailbreak e instrucciones maliciosas".

Los investigadores primero compilaron un conjunto de datos que incluía 580 ejemplos de mensajes de jailbreak diseñados para eludir las restricciones que impiden que ChatGPT proporcione respuestas consideradas "inmorales".Esto incluye textos poco confiables que podrían alimentar información errónea, así como contenido tóxico o abusivo.

Cuando probaron ChatGPT en estos mensajes de jailbreak, descubrieron que a menudo caía en su "trampa", produciendo el contenido malicioso y poco ético que solicitaban.Xie, Yi y sus colegas se propusieron idear una técnica simple pero efectiva que pudiera proteger a ChatGPT contra ataques de jailbreak cuidadosamente diseñados.

La técnica que crearon se inspira en el concepto psicológico de los recordatorios personales, empujones que pueden ayudar a las personas a recordar las tareas que deben completar, los eventos a los que se supone que deben asistir, etc.El enfoque de defensa de los investigadores, llamado recordatorio automático en modo sistema, está diseñado de manera similar para recordarle a Chat-GPT que las respuestas que proporciona deben seguir pautas específicas.

"Esta técnica encapsula la consulta del usuario en un mensaje del sistema que recuerda a ChatGPT que debe responder de manera responsable", escriben los investigadores."Los resultados experimentales demuestran que los recordatorios reducen significativamente la tasa de éxito de los ataques de jailbreak contra ChatGPT del 67,21% al 19,34%".

Hasta ahora, los investigadores probaron la eficacia de su técnica utilizando el conjunto de datos que crearon y descubrieron que lograba resultados prometedores, reduciendo la tasa de éxito de los ataques, aunque no previniéndolos todos.En el futuro, esta nueva técnica podría mejorarse aún más para reducir la vulnerabilidad de los LLM a estos ataques, al mismo tiempo que podría inspirar el desarrollo de otras estrategias de defensa similares.

"Nuestro trabajo documenta sistemáticamente las amenazas que plantean los ataques de jailbreak, introduce y analiza un conjunto de datos para evaluar las intervenciones defensivas y propone la técnica de recordatorio de inspiración psicológica que puede mitigar de manera eficiente y eficaz los jailbreak sin necesidad de formación adicional", resumen los investigadores en su artículo.

Más información:Yueqi Xie et al, Defendiendo ChatGPT contra ataques de jailbreak mediante recordatorios,Inteligencia de la máquina de la naturaleza(2023).DOI: 10.1038/s42256-023-00765-8.© 2024 Red Ciencia X

Citación

:Una técnica sencilla para defender ChatGPT contra ataques de jailbreak (2024, 18 de enero)recuperado el 18 de enero de 2024de https://techxplore.com/news/2024-01-simple-technique-defend-chatgpt-jailbreak.html

Este documento está sujeto a derechos de autor.Aparte de cualquier trato justo con fines de estudio o investigación privados, noparte puede ser reproducida sin el permiso por escrito.El contenido se proporciona únicamente con fines informativos.