Researchers improve method to discover anomalies in data
異常検出は、従来の AI の問題では見られなかったいくつかの課題を引き起こします。クレジット: Unsplash の Trevor Vannoy

ワシントン州立大学の研究者が開発したアルゴリズムは、ストリーミング データを含む現在の異常検出ソフトウェアよりもデータの異常をより正確に発見できます。

作品、報告されました人工知能研究ジャーナルは、サイバーセキュリティ、送電網管理、誤った情報、医療診断など、大量のデータの異常を迅速に発見する必要がある多くの分野に応用できる人工知能 (AI) 手法に根本的に貢献します。

異常をより適切に発見できるということは、不正行為や医療現場での病気、あるいは他の星からの光と信号が重なる小惑星などの重要な異常情報をより簡単に発見できることを意味します。

「この研究は、AI と人間がどのように連携して相乗的に問題を解決できるかについての進歩を示しています。問題の発見です」と、この研究を監督したヒューイ・ロジャース寄附講座コンピューターサイエンス准教授のヤナ・ドッパ氏は語った。

「これだけの生成 AI テクノロジーを使用すると、誤った情報を含むデータが大量に存在します。人間がこれをすべて調べようと思っても、膨大な量なので不可能です。人的リソースが有限で、誤った情報のようなものを検出したい場合は、すぐに、どのアイテムにラベルを付ける必要があるかを優先するアルゴリズムが必要になります。」

異常検出は、従来の AI の問題では見られなかったいくつかの課題を引き起こします。異常の数は通常のデータと比較して非常に少なく、通常は 2% 未満です。さらに、異常なデータと正常なデータの間に大きな違いがない場合もあります。

「つまり、大きな干し草の山から針を見つけるのは、ある種の問題のようなものです」とドッパ氏は語った。「そして、多くの分野では、何を探す必要があるのか​​さえわかりません。」

もう 1 つの問題は、大量のデータがあると、AI が検出する異常の候補が多すぎて、人間がチェックできないことです。

「これを持っているときはいつでも、「人間の多くの時間を無駄にしているので、それを最小限に抑えたいのです。」と博士研究員で筆頭著者のシュボモイ・ダス氏は述べています。時間が経つにつれて、ますます多様な異常が発見されるのでしょうか?」

研究の一環として、研究者らは新しい理論的およびコンピュータ モデルのアンサンブルが異常発見にうまく機能した理由は次のとおりです。彼らは、ほんの少量のステップバイステップのフィードバックにより、AI アルゴリズムがはるかに良く学習し、フィードバックがなかったシステムと比較してより多くの多様な異常を発見できることを発見しました。のAI がラベル付けのために候補を選択した理由を理解するには、候補の異常に関する説明が必要です。

「解釈可能性や説明可能性という概念は重要です」と博士は述べた。学生で共著者のラキブル・イスラム。「私たちが考えたのは、これが既存の文献にはほとんど欠けているということでした。」

研究者らは新しい発見を利用して、異常をバッチで調べるアルゴリズムを開発しました。これにより、さまざまな種類の異常を発見する能力が向上しました。したがって、異常なクレジット カード データの場合、アルゴリズムは、ある人の異常に高価な購入や異常な場所での購入など、さまざまな種類の異常な行動を検出します。

現在の AI モデルとは異なり、研究者が開発したアルゴリズムは、多くの実世界のアプリケーションで一般的なストリーミング データを処理できました。彼らのアルゴリズム「データがストリームで送られてくるときに異常を発見するという問題は、あまり研究されていませんでした」とドッパ氏は言う。

研究者のコンピュータ コードとデータは公開されており、現在、アルゴリズムを実世界のシステムに導入して、その精度と使いやすさを測定する予定です。

詳細情報:

Shubhomoy Das 他、異常発見のためのツリーベースのアンサンブルの有効性: インサイト、バッチおよびストリーミング アクティブ ラーニング、人工知能研究ジャーナル(2024年)。DOI: 10.1613/jair.1.14741引用:

データの異常を発見するための新しいアルゴリズムは現在のソフトウェアを上回ります (2024 年 7 月 26 日)2024 年 7 月 26 日に取得https://techxplore.com/news/2024-07-algorithm-anomalies-outperforms-current-software.html より

この文書は著作権の対象です。個人的な研究や研究を目的とした公正な取引を除き、書面による許可なく一部を複製することができます。コンテンツは情報提供のみを目的として提供されています。