New AI model breaks barriers in cross-modality machine vision learning
モデルに基づくクロスモダリティ画像検索ワークフロー。クレジット: 王紅強

最近、中国科学院合肥物理科学研究所の王紅強教授率いる研究チームは、広範囲にわたるクロスモダリティのマシンビジョンAIモデルを提案した。

このモデルは、クロスモダリティ情報を処理する際の従来の単一ドメイン モデルの限界を克服し、クロスモダリティ画像検索技術における新たなブレークスルーを達成しました。

クロスモダリティ マシン ビジョンは、異なる種類のデータ間の一貫性と補完性を見つける必要があるため、AI における大きな課題です。従来の方法は画像と特徴に焦点を当てていましたが、情報の粒度やデータ不足などの問題によって制限されていました。

研究者らは、従来の方法と比較して、モダリティ間の一貫性を維持するには、詳細な関連付けの方がより効果的であることを発見しました。作品は投稿されましたarXivプレプリントサーバー。

研究では、研究チームは広範囲にわたる情報マイニング ネットワーク (WRIM-Net) を導入しました。このモデルは、空間ドメイン、チャネルドメイン、スケールドメインなどのさまざまなドメインにわたる詳細な関連性を抽出するためのグローバル領域インタラクションを作成し、広範囲にわたるモダリティ不変情報マイニングを強調しました。

さらに、研究チームは、クロスモダリティのキーインスタンスの対比損失を設計することで、モダリティに不変の情報を効果的に抽出するようにネットワークを導きました。実験による検証では、標準および大規模クロスモダリティ データセットの両方でモデルの有効性が示され、いくつかの主要なパフォーマンス指標において初めて 90% 以上を達成しました。

このモデルは、視覚的なトレーサビリティや検索など、人工知能のさまざまな分野に適用できます。, チームによると。

詳細情報:Yonggan Wu 他、WRIM-Net: 可視赤外線人物再識別のための広範囲にわたる情報マイニング ネットワーク、arXiv(2024年)。DOI: 10.48550/arxiv.2408.10624

雑誌情報: arXiv

引用:新しい AI モデルがクロスモダリティ マシン ビジョン学習の壁を打ち破る (2024 年 9 月 24 日)2024 年 9 月 24 日に取得https://techxplore.com/news/2024-09-ai-barriers-modality-machine-vision.html より

この文書は著作権の対象です。個人的な研究や研究を目的とした公正な取引を除き、書面による許可なく一部を複製することができます。コンテンツは情報提供のみを目的として提供されています。