New AI model breaks barriers in cross-modality machine vision learning
基於此模型的跨模態影像檢索工作流程。圖片來源:王洪強

近日,由中國科學院合肥物質科學研究院王洪強教授領導的研究團隊提出了廣泛的跨模態機器視覺人工智慧模型。

該模型克服了傳統單域模型處理跨模態資訊的局限性,實現了跨模態影像檢索技術的新突破。

跨模態機器視覺是人工智慧的一個主要挑戰,因為它涉及尋找不同類型資料之間的一致性和互補性。傳統方法關注影像和特徵,但受到資訊粒度和資料缺乏等問題的限制。

與傳統方法相比,研究人員發現,詳細的關聯在保持跨模式的一致性方面更有效。工作是發布arXiv預印本伺服器。

在研究中,團隊引入了廣泛的資訊挖掘網路(WRIM-Net)。該模型創建了全局區域交互,以提取跨不同域(例如空間、通道和尺度域)的詳細關聯,強調廣泛範圍內的模態不變資訊挖掘。

此外,研究團隊透過設計跨模態關鍵實例對比損失,引導網路有效提取模態不變資訊。實驗驗證顯示該模型在標準和大規模跨模態資料集上均有效,在多個關鍵效能指標上首次達到了 90% 以上。

該模型可應用於人工智慧的各個領域,包括視覺溯源和檢索以及據該團隊稱。

更多資訊:Yonggan Wu 等人,WRIM-Net:用於可見紅外線人員重新識別的廣泛資訊挖掘網絡,arXiv(2024)。DOI:10.48550/arxiv.2408.10624

期刊資訊: arXiv

引文:新的人工智慧模型打破了跨模態機器視覺學習的障礙(2024 年 9 月 24 日)檢索日期:2024 年 9 月 24 日取自 https://techxplore.com/news/2024-09-ai-barriers-modality-machine-vision.html

本文檔受版權保護。除了出於私人學習或研究目的的任何公平交易外,不得未經書面許可,不得複製部分內容。所提供的內容僅供參考。