New AI model breaks barriers in cross-modality machine vision learning
Flujo de trabajo de recuperación de imágenes multimodal basado en el modelo.Crédito: Wang Hongqiang

Recientemente, el equipo de investigación dirigido por el profesor Wang Hongqiang de los Institutos Hefei de Ciencias Físicas de la Academia de Ciencias de China propuso un modelo de IA de visión artificial de modalidad cruzada de amplio alcance.

Este modelo superó las limitaciones de los modelos tradicionales de dominio único en el manejo de información multimodal y logró nuevos avances en la tecnología de recuperación de imágenes multimodal.

La visión artificial multimodal es un desafío importante en la IA, ya que implica encontrar coherencia y complementariedad entre diferentes tipos de datos.Los métodos tradicionales se centran en imágenes y características, pero están limitados por cuestiones como la granularidad de la información y la falta de datos.

En comparación con los métodos tradicionales, los investigadores encontraron que las asociaciones detalladas son más efectivas para mantener la coherencia entre las modalidades.el trabajo esal corrientehaciaarXivservidor de preimpresión.

En el estudio, el equipo introdujo una red de minería de información de amplio alcance (WRIM-Net).Este modelo creó interacciones de regiones globales para extraer asociaciones detalladas en varios dominios, como dominios espaciales, de canales y de escala, enfatizando la extracción de información de modalidad invariante en un amplio rango.

Además, el equipo de investigación guió a la red para extraer eficazmente información invariante de modalidad mediante el diseño de una pérdida contrastiva de instancia clave entre modalidades.La validación experimental demostró la eficacia del modelo en conjuntos de datos de modalidad cruzada tanto estándar como a gran escala, logrando por primera vez más del 90 % en varias métricas clave de rendimiento.

Este modelo se puede aplicar en varios campos de la inteligencia artificial, incluida la trazabilidad y recuperación visual, así como, según el equipo.

Más información:Yonggan Wu et al, WRIM-Net: Red de minería de información de amplio alcance para la reidentificación de personas en el infrarrojo visible,arXiv(2024).DOI: 10.48550/arxiv.2408.10624

Información de la revista: arXiv

Citación:El nuevo modelo de IA rompe barreras en el aprendizaje de visión artificial multimodal (24 de septiembre de 2024)recuperado el 24 de septiembre de 2024de https://techxplore.com/news/2024-09-ai-barriers-modality-machine-vision.html

Este documento está sujeto a derechos de autor.Aparte de cualquier trato justo con fines de estudio o investigación privados, noparte puede ser reproducida sin el permiso por escrito.El contenido se proporciona únicamente con fines informativos.