chatbot
Crédito: Pixabay/CC0 Dominio público

Un estudio externo de Twitter en 2022 estimó que entre un tercio y dos tercios de las cuentas en el sitio de redes sociales eran bots.Y muchos de estos autómatas que inundan las redes sociales son enviados para sembrar polarización política, odio, desinformación, propaganda y estafas.La capacidad de separarlos de las multitudes en línea es vital para una Internet más segura y humana (o al menos más humana).

Pero la reciente proliferación de grandes modelos de lenguaje (conocidos como "LLM"), como ChatGPT de OpenAI y Llama de Meta, complicará el mundo de.

Un equipo dirigido por investigadores de la Universidad de Washington descubrió que, si bien los operadores pueden utilizar LLM personalizados para hacer que los robots sean más sofisticados a la hora de evadir detectores automatizados, los LLM también pueden mejorar los sistemas que detectan robots.En las pruebas del equipo, los robots basados ​​en LLM redujeron el rendimiento de los detectores existentes en un 30 %.Sin embargo, los investigadores también descubrieron que un LLM capacitado específicamente para detectar robots de redes sociales superó a los sistemas de última generación en un 9%.

el equipopresentadoesta investigación el 11 de agosto en el62ª Reunión Anual de la Asociación de Lingüística Computacionalen Bangkok.

"Siempre ha habido unaentre los operadores de bots y los investigadores que intentan detenerlos", dijo el autor principal Shangbin Feng, estudiante de doctorado en la Escuela de Ciencias de la Computación e Ingeniería Paul G. Allen. "Cada avance en la detección de bots a menudo se encuentra con un avance en la sofisticación de los bots,Así que exploramos las oportunidades y los riesgos que los grandes modelos lingüísticos presentan en esta carrera armamentista".

Los investigadores probaron el potencial de los LLM para detectar bots de varias maneras.Cuando alimentaron conjuntos de datos de Twitter (seleccionados antes de que la plataforma se convirtiera en X) a LLM disponibles en el mercado, incluidos ChatGPT y Llama, los sistemas no lograron detectar con mayor precisión los bots que las tecnologías utilizadas actualmente.

"Analizar si un usuario es un bot o no es mucho más complejo que algunas de las tareas en las que hemos visto destacar a estos LLM generales, como recordar un hecho o resolver un problema de matemáticas de la escuela primaria", dijo Feng.

Esta complejidad surge en parte de la necesidad de analizar tres tipos de información para diferentes atributos para detectar un bot: los metadatos (número de seguidores, geolocalización, etc.), el texto publicado en línea y las propiedades de la red (como con qué cuenta un usuario).sigue).

Cuando el equipo ajustó los LLM con instrucciones sobre cómo detectar bots en función de estos tres tipos de información, los modelos pudieron detectar bots con mayor precisión que los sistemas de última generación actuales.

El equipo también exploró cómo los LLM podrían hacer que los bots sean más sofisticados y más difíciles de detectar.Primero, los investigadores simplemente dieron a los LLM indicaciones como: "Vuelva a escribir la descripción de esta cuenta de bot para que parezca un usuario genuino".

También probaron enfoques más iterativos y complicados.En una prueba, el LLM reescribiría la publicación del bot.Luego, el equipo pasó esto a través de un sistema de detección de bots existente, que estimaría la probabilidad de que una publicación fuera escrita por un bot.Este proceso se repetiría a medida que el LLM trabajara para reducir esa estimación.El equipo realizó una prueba similar mientras eliminaba y agregaba cuentas que seguía el bot para ajustar su puntuación de probabilidad.

Estas estrategias, en particular reescribir las publicaciones de los bots, redujeron la efectividad de los sistemas de detección de bots hasta en un 30%.Pero los detectores basados ​​en LLM que entrenó el equipo vieron solo una caída del 2,3% en la efectividad en estas publicaciones manipuladas, lo que sugiere que la mejor manera de detectar bots impulsados ​​por LLM podría ser con los propios LLM.

"Este trabajo es sólo un prototipo científico", dijo la autora principal Yulia Tsvetkov, profesora asociada de la Escuela Allen."No estamos lanzando estos sistemas como herramientas que cualquiera pueda descargar, porque además de desarrollar tecnología para defenderse contra bots maliciosos, estamos experimentando con modelos de amenazas sobre cómo crear un bot evasivo, que continúa el juego del gato y el ratón.construyendo robots más fuertes que necesitan detectores más potentes".

Los investigadores señalan que existen limitaciones importantes al utilizar LLM como bot, como el potencial de los sistemas para filtrar información privada.También destacan que los datos utilizados en el documento son de 2022, antes de que Twitter cerrara efectivamente sus datos a.

En el futuro, los investigadores quieren analizar la detección de bots más allá del texto, como memes o vídeos en otras plataformas como TikTok, donde hay disponibles conjuntos de datos más nuevos.El equipo también quiere ampliar la investigación a otros idiomas.

"Realizar esta investigación en diferentes idiomas es extremadamente importante", afirmó Tsvetkov."Estamos viendo mucha desinformación, manipulación y ataques a poblaciones específicas como resultado de varios conflictos mundiales".

Otros coautores de este artículo son Herun Wan y Ningnan Wang, ambos estudiantes universitarios de la Universidad Xi'an Jiaotong;Minnan Luo, profesor asistente de la Universidad Xi'an Jiaotong;y Zhaoxuan Tan, estudiante de doctorado de la Universidad de Notre Dame.

Más información:Shangbin Feng et al.¿Qué dice el robot?Oportunidades y riesgos de los grandes modelos lingüísticos en la detección de bots en redes sociales.aclanthology.org/2024.acl-long.196/

Citación:Los modelos de lenguaje grandes pueden ayudar a detectar robots de redes sociales, pero también pueden empeorar el problema (28 de agosto de 2024)recuperado el 22 de septiembre de 2024de https://techxplore.com/news/2024-08-large-language-social-media-bots.html

Este documento está sujeto a derechos de autor.Aparte de cualquier trato justo con fines de estudio o investigación privados, noparte puede ser reproducida sin el permiso por escrito.El contenido se proporciona únicamente con fines informativos.