New AI model breaks barriers in cross-modality machine vision learning
基于该模型的跨模态图像检索工作流程。图片来源:王洪强

近日,中国科学院合肥物质科学研究院王洪强教授领导的研究团队提出了一种广泛的跨模态机器视觉人工智能模型。

该模型克服了传统单域模型处理跨模态信息的局限性,实现了跨模态图像检索技术的新突破。

跨模态机器视觉是人工智能的一个主要挑战,因为它涉及寻找不同类型数据之间的一致性和互补性。传统方法关注图像和特征,但受到信息粒度和数据缺乏等问题的限制。

与传统方法相比,研究人员发现,详细的关联在保持跨模式的一致性方面更有效。工作是发布arXiv预印本服务器。

在研究中,团队引入了广泛的信息挖掘网络(WRIM-Net)。该模型创建了全局区域交互,以提取跨不同域(例如空间、通道和尺度域)的详细关联,强调广泛范围内的模态不变信息挖掘。

此外,研究团队通过设计跨模态关键实例对比损失,引导网络有效提取模态不变信息。实验验证表明该模型在标准和大规模跨模态数据集上均有效,在多个关键性能指标上首次达到了 90% 以上。

该模型可应用于人工智能的各个领域,包括视觉溯源和检索以及据该团队称。

更多信息:Yonggan Wu 等人,WRIM-Net:用于可见红外人员重新识别的广泛信息挖掘网络,arXiv(2024)。DOI:10.48550/arxiv.2408.10624

期刊信息: arXiv

引文:新的人工智能模型打破了跨模态机器视觉学习的障碍(2024 年 9 月 24 日)检索日期:2024 年 9 月 24 日来自 https://techxplore.com/news/2024-09-ai-barriers-modality-machine-vision.html

本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外,不得未经书面许可,不得复制部分内容。所提供的内容仅供参考。