用于发现数据异常的新算法优于当前软件

2024-07-26 17:03:26

华盛顿州立大学研究人员开发的算法可以比当前的异常检测软件更好地发现数据异常，包括流数据。

Researchers improve method to discover anomalies in data — 异常检测带来了传统人工智能问题中未见的一些挑战。图片来源：Unsplash 上的 Trevor Vannoy

华盛顿州立大学研究人员开发的算法可以比当前的异常检测软件更好地发现数据异常，包括流数据。

工作，报道在人工智能研究杂志，对人工智能（AI）方法做出了基础性贡献，这些方法可以在许多需要快速发现大量数据中的异常的领域得到应用，例如网络安全、电网管理、错误信息和医疗诊断。

能够更好地发现异常现象意味着能够更容易地发现欺诈、医疗环境中的疾病或重要的异常信息，例如信号与其他恒星的光重叠的小行星。

“这项工作展示了人工智能和人类如何共同努力协同解决问题的进展异常监督这项工作的计算机科学教授 Jana Doppa 说。

“有了所有这些生成式人工智能技术，就会有大量包含错误信息的数据，如果你想让人类检查所有这些，那是不可能的，因为它非常庞大。如果你的人力资源有限，并且你想检测诸如错误信息之类的东西，很快，您需要算法来优先考虑应该标记哪些项目。”

异常检测带来了传统人工智能问题中未见的一些挑战。与正常数据相比，异常数量非常少——通常小于 2%。此外，异常数据和正常数据之间可能没有太大差异。

“所以，这就像大海捞针一样是一个问题，”多帕说。“而且你甚至不知道在很多领域需要寻找什么。”

另一个问题是，对于大量数据，人工智能通常会发现太多候选异常，无法传递给人们检查。

“每当你拥有这些误报博士后研究员兼主要作者 Shubhomoy Das 说：“你浪费了人类大量的时间，我们希望尽量减少这种时间。”“我们如何利用人类的最小反馈来调整异常检测器，从而降低误报率随着时间的推移，我们会发现越来越多不同的异常现象吗？”

作为工作的一部分，研究人员提供了新的理论和实证结果为什么计算机模型集合能够很好地发现异常。他们发现，与没有反馈的系统相比，只需少量的逐步反馈，人工智能算法就可以更好地学习并发现更多不同的异常情况。这人类需要对候选异常进行解释，以了解人工智能选择它们进行标记的原因。

“可解释性或可解释性的一些概念很重要，”博士说。学生兼合著者 Rakibul Islam。“我们认为现有文献中很大程度上缺少这一点。”

研究人员利用他们的新发现开发了一种批量查看异常的算法，从而提高了发现不同类型异常的能力。因此，在信用卡数据异常的情况下，算法会发现不同类型的异常行为，例如一个人异常昂贵的购买和/或在奇怪地点进行的购买。

与当前的人工智能模型不同，研究人员开发的算法能够处理流数据，这在许多现实应用中很常见。他们的算法可以检测并量化数据分布中的漂移，然后采取纠正措施。“当数据以流的形式出现时发现异常的问题很少被研究，”多帕说。

研究人员的计算机代码和数据是公开的，他们现在计划将他们的算法部署在现实世界的系统中，以测量其准确性和可用性。

更多信息：

Shubhomoy Das 等人，基于树的集成对于异常发现的有效性：见解、批量和流式主动学习，人工智能研究杂志（2024）。DOI：10.1613/jair.1.14741引文:

用于发现数据异常的新算法优于当前软件（2024 年，7 月 26 日）检索日期：2024 年 7 月 26 日来自 https://techxplore.com/news/2024-07-algorithm-anomalies-outperforms-current-software.html

本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外，不得未经书面许可，不得复制部分内容。所提供的内容仅供参考。