New AI model breaks barriers in cross-modality machine vision learning
모델을 기반으로 하는 교차 양식 이미지 검색 워크플로우입니다.크레딧: Wang Hongqiang

최근 중국과학원 허페이 물리과학연구소 왕홍창(Wang Hongqiang) 교수가 이끄는 연구팀은 광범위한 교차 양식 머신 비전 AI 모델을 제안했습니다.

이 모델은 교차 양식 정보 처리에 있어 기존 단일 도메인 모델의 한계를 극복하고 교차 양식 이미지 검색 기술에서 새로운 혁신을 이루었습니다.

교차 양식 머신 비전은 다양한 유형의 데이터 간의 일관성과 보완성을 찾는 것과 관련되므로 AI의 주요 과제입니다.기존 방법은 이미지와 기능에 중점을 두지만 정보 세분성 및 데이터 부족과 같은 문제로 인해 제한됩니다.

연구자들은 전통적인 방법과 비교하여 세부적인 연관성이 양식 전반에 걸쳐 일관성을 유지하는 데 더 효과적이라는 것을 발견했습니다.작업은게시됨arXiv사전 인쇄 서버.

이번 연구에서 연구팀은 광범위한 정보 마이닝 네트워크(WRIM-Net)를 도입했습니다.이 모델은 공간, 채널 및 규모 도메인과 같은 다양한 도메인에서 세부 연관성을 추출하기 위해 전역 지역 상호 작용을 생성하여 광범위한 범위에 걸쳐 양식 불변 정보 마이닝을 강조합니다.

또한 연구팀은 교차 양식 키-인스턴스 대조 손실을 설계하여 양식 불변 정보를 효과적으로 추출하도록 네트워크를 안내했습니다.실험적 검증을 통해 표준 및 대규모 교차 양식 데이터 세트 모두에서 모델의 효율성이 나타났으며, 처음으로 여러 주요 성능 지표에서 90% 이상을 달성했습니다.

본 모델은 시각적 추적, 검색 등 인공지능의 다양한 분야에 적용 가능합니다., 팀에 따르면.

추가 정보:Yonggan Wu 외, WRIM-Net: 가시적외선 사람 재식별을 위한 광범위한 정보 마이닝 네트워크,arXiv(2024).DOI: 10.48550/arxiv.2408.10624

저널 정보: arXiv

소환:새로운 AI 모델은 교차 양식 머신 비전 학습의 장벽을 무너뜨립니다(2024년 9월 24일)2024년 9월 24일에 확인함https://techxplore.com/news/2024-09-ai-barriers-modality-machine-vision.html에서

이 문서는 저작권의 보호를 받습니다.사적인 학습이나 조사를 목적으로 하는 공정한 거래를 제외하고는 어떠한 행위도 허용되지 않습니다.서면 허가 없이 일부를 복제할 수 있습니다.콘텐츠는 정보 제공 목적으로만 제공됩니다.