카메라가 기록하는 내용을 설명하는 새로운 소프트웨어를 통해 시각 장애가 있거나 시력이 낮은 사람들이 색상과 질감의 세계에 더 쉽게 접근할 수 있게 될 것입니다.
그만큼도구WorldScribe라고 불리는 이 제품은 미시간 대학 연구진이 설계했으며 2024년에 발표될 예정입니다.사용자 인터페이스 소프트웨어 및 기술에 관한 ACM 심포지엄피츠버그에서.
그만큼공부하다"WorldScribe: 상황 인식 실시간 시각적 설명을 향하여"라는 제목이 붙어 있으며arXiv사전 인쇄 서버.
이 도구는 GenAI(생성 AI) 언어 모델을 사용하여 카메라 이미지를 해석하고 실시간으로 텍스트 및 오디오 설명을 생성하여 사용자가 주변 환경을 더 빨리 인식할 수 있도록 도와줍니다.사용자의 명령이나 물체가 카메라 프레임에 있는 시간에 따라 세부 수준을 조정할 수 있으며 볼륨은 혼잡한 방, 분주한 거리, 시끄러운 음악과 같은 시끄러운 환경에 자동으로 조정됩니다.
이 도구는 10월 14일 오후 6시(EST)에 시연될 예정이며, 주최자가 컨퍼런스에서 최고 중 하나로 선정한 도구에 대한 연구는 10월 16일 오후 3시 15분(EST)에 발표될 예정입니다.
"우리를 위해시각 장애인, 이는 우리가 세상과 협력하는 방식에 정말로 혁명을 일으킬 수 있습니다.일상 생활"라고 선천적으로 시각 장애가 있었고 WorldScribe 시험 연구에 참여한 Sam Rau가 말했습니다.
"나는 시각에 대한 개념이 없지만, 도구를 사용했을 때 현실 세계의 그림을 얻었고 다른 방법으로는 접근할 수 없는 모든 색상과 질감에 흥분했습니다." Rau말했다.
"시각 장애인으로서 우리는 주변에서 일어나는 일을 하나씩 그림으로 채우고 있으며 더 큰 그림을 만들려면 많은 정신적 노력이 필요할 수 있습니다. 하지만 이 도구는 정보를 올바르게 파악하는 데 도움이 될 수 있습니다.제 생각에는 무슨 일이 일어나고 있는지 파악하기보다는 인간으로서의 존재에만 집중할 수 있도록 도와주는 것 같아요. 그것이 진정 우리에게 얼마나 큰 기적인지 말로 표현할 수 있을지 모르겠습니다."
실험 연구 동안 라우는 스마트폰이 장착된 헤드셋을 착용하고 연구실을 돌아다녔다.휴대폰 카메라는 이미지를 무선으로 서버에 전송했고, 서버는 책상 위의 노트북, 서류 더미, TV, 근처 벽에 걸린 그림 등 카메라 프레임 안의 개체에 대한 텍스트 및 오디오 설명을 거의 즉시 생성했습니다.
설명은 카메라에 보이는 모든 것과 일치하도록 지속적으로 변경되어 Rau에 가장 가까운 물체를 우선시합니다.책상을 잠깐 살펴보면 한 단어로 간단하게 설명할 수 있었지만, 좀 더 자세히 살펴보니 그 위에 정리된 폴더와 서류에 대한 정보가 드러났습니다.
이 도구는 세 가지 AI 언어 모델 간에 전환하여 설명의 세부 수준을 조정할 수 있습니다.YOLO World 모델은 카메라 프레임에 잠깐 나타나는 객체에 대한 매우 간단한 설명을 빠르게 생성합니다.오랜 시간 동안 프레임에 남아 있는 개체에 대한 자세한 설명은 ChatGPT 기반 모델인 GPT-4에서 처리됩니다.또 다른 모델인 Moondream은 중간 수준의 세부 정보를 제공합니다.
"AI를 활용하는 기존 보조 기술 중 다수는 특정 작업에 초점을 맞추거나 일종의 단계별 상호 작용이 필요합니다. 예를 들어 사진을 찍으면 결과를 얻을 수 있습니다."라고 컴퓨터 과학 조교수인 Anhong Guo는 말했습니다.엔지니어링 및 해당 연구의 교신 저자.
"실시간 경험에 대한 풍부하고 상세한 설명을 제공하는 것은그랜드 챌린지Guo는 "접근성 도구를 위해 점점 더 많은 능력을 갖춘 AI 모델을 사용하여 실시간으로 자동화되고 적응 가능한 설명을 만들 수 있는 기회를 보았습니다."라고 말했습니다.
GenAI를 사용하기 때문에 WorldScribe는 사용자가 도구에서 찾도록 요청한 개체에 대한 설명의 우선순위를 지정하는 등 사용자가 제공한 작업이나 쿼리에 응답할 수도 있습니다.그러나 일부 연구 참여자들은 이 도구가 스포이드 병과 같은 특정 물체를 감지하는 데 문제가 있다고 지적했습니다.
Rau는 이 도구가 현재 상태로는 일상적으로 사용하기에는 여전히 약간 투박하지만 스마트 안경이나 다른 웨어러블 장치에 통합될 수 있다면 매일 사용할 것이라고 말합니다.
연구원들은 U-M Innovation Partnerships의 도움으로 특허 보호를 신청했으며 기술을 개선하고 시장에 출시하는 데 도움을 줄 파트너를 찾고 있습니다.
Guo는 또한 U-M 정보대학원의 정보 조교수이기도 합니다.
추가 정보:Ruei-Che Chang 외, WorldScribe: 상황 인식 실시간 시각적 설명을 향하여,arXiv(2024).DOI: 10.1145/3654777.3676375
저널 정보: arXiv
소환:AI 기반 소프트웨어가 시각 장애인을 위한 주변 환경을 실시간으로 설명합니다(2024년 10월 10일)2024년 10월 10일에 확인함https://techxplore.com/news/2024-10-ai-powered-software-narrates-visually.html에서
이 문서는 저작권의 보호를 받습니다.사적인 학습이나 조사를 목적으로 하는 공정한 거래를 제외하고는 어떠한 행위도 허용되지 않습니다.서면 허가 없이 일부를 복제할 수 있습니다.콘텐츠는 정보 제공 목적으로만 제공됩니다.