Real-time descriptions of surroundings for people who are blind
Cuando un usuario escanea la cámara de su teléfono por una habitación, WorldScribe creará breves descripciones de audio de los objetos grabados por la cámara.Crédito: Shen-Yun Lai, usado con autorización.

Un mundo de color y textura pronto podría volverse más accesible para las personas ciegas o con baja visión, a través de un nuevo software que narra lo que graba una cámara.

El, llamado WorldScribe, fue diseñado por investigadores de la Universidad de Michigan y se presentará en 2024Simposio ACM sobre software y tecnología de interfaz de usuarioen Pittsburg.

Elestudiarse titula "WorldScribe: Hacia descripciones visuales en vivo conscientes del contexto" y aparece en laarXivservidor de preimpresión.

La herramienta utiliza modelos de lenguaje de IA generativa (GenAI) para interpretar las imágenes de la cámara y producir texto y descripciones de audio en tiempo real para ayudar a los usuarios a tomar conciencia de su entorno más rápidamente.Puede ajustar el nivel de detalle según las órdenes del usuario o el tiempo que un objeto permanece en el encuadre de la cámara, y el volumen se adapta automáticamente a entornos ruidosos como habitaciones abarrotadas, calles concurridas y música alta.

Crédito: Ruei-Che Chang

La herramienta se demostrará a las 6:00 p. m. EST del 14 de octubre, y un estudio de la herramienta, que los organizadores han identificado como uno de los mejores en la conferencia, se presentará a las 3:15 p. m. EST del 16 de octubre.

"Para nosotros, esto realmente podría revolucionar la forma en que trabajamos con el mundo en," dijo Sam Rau, quien nació ciego y participó en el estudio de prueba WorldScribe.

"No tengo ningún concepto de la vista, pero cuando probé la herramienta, obtuve una imagen del mundo real y me emocioné por todo el color y la textura a los que de otro modo no tendría acceso", Raudicho.

"Como persona ciega, estamos completando la imagen de lo que sucede a nuestro alrededor pieza por pieza, y puede requerir mucho esfuerzo mental crear una imagen más amplia. Pero esta herramienta puede ayudarnos a tener la información correcta.lejos, y en mi opinión, nos ayuda a centrarnos en ser humanos en lugar de descubrir lo que está pasando. No sé si puedo transmitir con palabras el gran milagro que realmente es para nosotros".

Real-time descriptions of surroundings for people who are blind
Cuando el usuario se mueve lentamente por la habitación, WorldScribe utilizará GPT-4 para crear descripciones coloridas de objetos.Cuando se le solicite ayuda para buscar una computadora portátil, la herramienta priorizará las descripciones detalladas de cualquier computadora portátil en la sala.Crédito: Shen-Yun Lai, usado con autorización.

Durante el estudio de prueba, Rau se puso unos auriculares equipados con un teléfono inteligente y caminó por el laboratorio de investigación.La cámara del teléfono transfirió de forma inalámbrica las imágenes a un servidor, que generó casi instantáneamente descripciones de texto y audio de los objetos en el marco de la cámara: una computadora portátil en un escritorio, una pila de papeles, un televisor y cuadros montados en la pared cercana.

Las descripciones cambiaban constantemente para coincidir con lo que estaba a la vista de la cámara, priorizando los objetos más cercanos a Rau.Una breve mirada a un escritorio produjo una descripción simple de una palabra, pero una inspección más larga arrojó información sobre las carpetas y los papeles dispuestos encima.

La herramienta puede ajustar el nivel de detalle en sus descripciones cambiando entre tres modelos de lenguaje de IA diferentes.El modelo YOLO World genera rápidamente descripciones muy simples de objetos que aparecen brevemente en el encuadre de la cámara.GPT-4, el modelo detrás de ChatGPT, maneja descripciones detalladas de los objetos que permanecen en el marco durante un período de tiempo más largo.Otro modelo, Moondream, proporciona un nivel de detalle intermedio.

"Muchas de las tecnologías de asistencia existentes que aprovechan la IA se centran en tareas específicas o requieren algún tipo de interacción paso a paso. Por ejemplo, tomas una fotografía y luego obtienes algún resultado", dijo Anhong Guo, profesor asistente de informática.e ingeniería y autor correspondiente del estudio.

"Proporcionar descripciones ricas y detalladas para una experiencia en vivo es una"Para herramientas de accesibilidad", dijo Guo. "Vimos la oportunidad de utilizar modelos de IA cada vez más capaces para crear descripciones automatizadas y adaptables en tiempo real".

Debido a que se basa en GenAI, WorldScribe también puede responder a tareas o consultas proporcionadas por el usuario, como priorizar descripciones de cualquier objeto que el usuario le pidió a la herramienta que encontrara.Sin embargo, algunos participantes del estudio notaron que la herramienta tenía problemas para detectar ciertos objetos, como un frasco con cuentagotas.

Rau dice que la herramienta todavía es un poco torpe para el uso diario en su estado actual, pero dice que la usaría todos los días si pudiera integrarse en gafas inteligentes u otro dispositivo portátil.

Los investigadores han solicitado protección de patente con la ayuda de U-M Innovation Partnerships y están buscando socios para ayudar a refinar la tecnología y llevarla al mercado.

Guo también es profesor asistente de información en la Escuela de Información de la UM.

Más información:Ruei-Che Chang et al, WorldScribe: hacia descripciones visuales en vivo conscientes del contexto,arXiv(2024).DOI: 10.1145/3654777.3676375

Información de la revista: arXiv

Citación:El software impulsado por IA narra el entorno para personas con discapacidad visual en tiempo real (2024, 10 de octubre)recuperado el 10 de octubre de 2024de https://techxplore.com/news/2024-10-ai-powered-software-narrates-visually.html

Este documento está sujeto a derechos de autor.Aparte de cualquier trato justo con fines de estudio o investigación privados, noparte puede ser reproducida sin el permiso por escrito.El contenido se proporciona únicamente con fines informativos.