用於發現數據異常的新演算法優於目前軟體

2024-07-26 17:03:26

華盛頓州立大學研究人員開發的演算法可以比目前的異常檢測軟體更好地發現數據異常，包括流數據。

Researchers improve method to discover anomalies in data — 異常檢測帶來了傳統人工智慧問題中未見的一些挑戰。圖片來源：Unsplash 上的 Trevor Vannoy

華盛頓州立大學研究人員開發的演算法可以比目前的異常檢測軟體更好地發現數據異常，包括流數據。

工作，報道在人工智慧研究雜誌，對人工智慧（AI）方法做出了基礎性貢獻，這些方法可以在許多需要快速發現大量數據中的異常的領域中得到應用，例如網路安全、電網管理、錯誤訊息和醫療診斷。

能夠更好地發現異常現象意味著能夠更容易發現欺詐、醫療環境中的疾病或重要的異常訊息，例如信號與其他恆星的光重疊的小行星。

「這項工作展示了人工智慧和人類如何共同努力協同解決問題的進展例外監督這項工作的電腦科學教授 Jana Doppa 說。

「有了所有這些生成式人工智慧技術，就會有大量包含錯誤訊息的數據，如果你想讓人類檢查所有這些，那是不可能的，因為它非常龐大。如果你的人力資源有限，而且你想檢測諸如錯誤訊息之類的東西，很快，您需要演算法來優先考慮應該標記哪些項目。

異常檢測帶來了傳統人工智慧問題中未見的一些挑戰。與正常數據相比，異常數量非常少——通常小於 2%。此外，異常數據和正常數據之間可能沒有太大差異。

「所以，這就像大海撈針一樣是一個問題，」多帕說。“而且你甚至不知道在很多領域需要尋找什麼。”

另一個問題是，對於大量數據，人工智慧通常會發現太多候選異常，無法傳遞給人們檢查。

「每當你擁有這些誤報博士後研究員兼主要作者 Shubhomoy Das 說：「你浪費了人類大量的時間，我們希望盡量減少這種時間。」「我們如何利用人類的最小回饋來調整異常檢測器，從而降低誤報率隨著時間的推移，我們會發現越來越多不同的異常現象嗎？

作為工作的一部分，研究人員提供了新的理論和實證結果為什麼電腦模型集合能夠很好地發現異常。他們發現，與沒有回饋的系統相比，只需少量的逐步回饋，人工智慧演算法就可以更好地學習並發現更多不同的異常情況。這人類需要對候選異常進行解釋，以了解人工智慧選擇它們進行標記的原因。

「可解釋性或可解釋性的一些概念很重要，」博士說。學生兼合著者 Rakibul Islam。“我們認為現有文獻中很大程度上缺乏這一點。”

研究人員利用他們的新發現開發了一種批量查看異常的演算法，從而提高了發現不同類型異常的能力。因此，在信用卡資料異常的情況下，演算法會發現不同類型的異常行為，例如一個人異常昂貴的購買和/或在奇怪地點進行的購買。

與目前的人工智慧模型不同，研究人員開發的演算法能夠處理串流數據，這在許多現實應用中很常見。他們的演算法可以檢測並量化資料分佈中的漂移，然後採取糾正措施。「當數據以流的形式出現時發現異常的問題很少被研究，」多帕說。

研究人員的電腦程式碼和數據是公開的，他們現在計劃將他們的演算法部署在現實世界的系統中，以測量其準確性和可用性。

更多資訊：

Shubhomoy Das 等人，基於樹狀圖的整合對於異常發現的有效性：見解、大量和串流主動學習，人工智慧研究雜誌（2024）。DOI：10.1613/jair.1.14741引文:

用於發現資料異常的新演算法優於目前軟體（2024 年，7 月 26 日）檢索日期：2024 年 7 月 26 日來自 https://techxplore.com/news/2024-07-algorithm-anomalies-outperforms-current-software.html

本文檔受版權保護。除了出於私人學習或研究目的的任何公平交易外，不得未經書面許可，不得複製部分內容。所提供的內容僅供參考。