Un nuevo algoritmo para descubrir anomalías en los datos supera al software actual

2024-07-26 17:03:26

Un algoritmo desarrollado por investigadores de la Universidad Estatal de Washington puede encontrar anomalías en los datos mejor que el software de detección de anomalías actual, incluso en la transmisión de datos.

Researchers improve method to discover anomalies in data — La detección de anomalías plantea varios desafíos que no se ven en los problemas tradicionales de IA.Crédito: Trevor Vannoy en Unsplash

La obra,reportadoen elRevista de investigación en inteligencia artificial, hace contribuciones fundamentales a los métodos de inteligencia artificial (IA) que podrían tener aplicaciones en muchos dominios que necesitan encontrar rápidamente anomalías en grandes cantidades de datos, como en ciberseguridad, gestión de redes eléctricas, desinformación y diagnóstico médico.

Ser capaz de encontrar mejor las anomalías significaría poder descubrir más fácilmente fraudes, enfermedades en un entorno médico o información importante e inusual, como un asteroide cuyas señales se superponen con la luz de otras estrellas.

"Este trabajo presenta avances sobre cómo la IA y los humanos pueden trabajar juntos para resolver sinérgicamenteanomalíaproblemas de descubrimiento", dijo Jana Doppa, profesora asociada de Ciencias de la Computación de la Cátedra Huie-Rogers que supervisó el trabajo.

"Con toda esta tecnología de IA generativa, hay tantos datos que incluyen información errónea, y si quieres que los humanos revisen todo esto, es imposible porque es enorme. Si tienes recursos humanos finitos y quieres detectar algo como información errónearápidamente, usted quiere algoritmos que prioricen qué elementos deben etiquetarse".

La detección de anomalías plantea varios desafíos que no se ven en los problemas tradicionales de IA.El número de anomalías es muy pequeño en comparación con los datos normales: normalmente menos del 2 %.Además, puede que no haya una gran diferencia entre una anomalía y un dato normal.

"Entonces, es como encontrar agujas en un gran pajar", dijo Doppa."Y en muchos ámbitos ni siquiera se sabe qué hay que buscar".

Otro problema es que con grandes cantidades de datos, la IA a menudo encuentra demasiadas anomalías candidatas para transmitirlas a las personas para que las revisen.

"Siempre que tengas estosfalsos positivos, se está perdiendo mucho tiempo de los humanos, algo que queremos minimizar", dijo el investigador postdoctoral y autor principal Shubhomoy Das. "¿Cómo podemos utilizar una retroalimentación mínima del ser humano para adaptar el detector de anomalías de modo que los falsos positivos disminuyantiempo, y descubrimos anomalías cada vez más diversas?"

Como parte del trabajo, los investigadores aportaron nuevos conocimientos teóricos yhallazgos empíricosde por qué un conjunto de modelos informáticos funcionó bien para el descubrimiento de anomalías.Descubrieron que con sólo una pequeña cantidad de retroalimentación paso a paso, el algoritmo de IA puede aprender mucho mejor y descubrir muchas más anomalías diversas en comparación con un sistema donde no había retroalimentación.ElhumanoNecesita una explicación sobre las anomalías candidatas para comprender por qué la IA las seleccionó para etiquetarlas.

"Es importante cierta noción de interpretabilidad o explicabilidad", dijo Ph.D.estudiante y coautor Rakibul Islam."Lo que pensamos fue que esto faltaba en gran medida en la literatura existente".

Los investigadores utilizaron sus nuevos hallazgos para desarrollar un algoritmo que analiza anomalías en lotes, lo que mejoró la capacidad de descubrir diversos tipos de anomalías.Entonces, en el caso de datos anómalos de tarjetas de crédito, el algoritmo descubre diferentes tipos de comportamiento inusual, como compras extrañamente caras de una persona y/o compras que se realizan en una ubicación extraña.

A diferencia de los modelos de IA actuales, el algoritmo que desarrollaron los investigadores pudo manejar la transmisión de datos, lo cual es común en muchas aplicaciones del mundo real.Sualgoritmopuede detectar y cuantificar la desviación en la distribución de datos y luego tomar medidas correctivas."El problema de descubrir anomalías cuando los datos vienen en una corriente ha sido menos estudiado", dijo Doppa.

El código informático y los datos de los investigadores están disponibles públicamente y ahora planean implementar sus algoritmos en sistemas del mundo real para medir su precisión y usabilidad.

Más información:

Shubhomoy Das et al, Eficacia de los conjuntos basados en árboles para el descubrimiento de anomalías: conocimientos, aprendizaje activo por lotes y en streaming,Revista de investigación en inteligencia artificial(2024).DOI: 10.1613/jair.1.14741Citación:

Un nuevo algoritmo para descubrir anomalías en los datos supera al software actual (26 de julio de 2024)recuperado el 26 de julio de 2024de https://techxplore.com/news/2024-07-algorithm-anomalies-outperforms-current-software.html

Este documento está sujeto a derechos de autor.Aparte de cualquier trato justo con fines de estudio o investigación privados, noparte puede ser reproducida sin el permiso por escrito.El contenido se proporciona únicamente con fines informativos.