Real-time descriptions of surroundings for people who are blind
사용자가 방 주변의 휴대폰 카메라를 스캔하면 WorldScribe는 카메라에 의해 녹음된 개체에 대한 간략한 오디오 설명을 생성합니다.출처: Shen-Yun Lai, 허가를 받아 사용함

카메라가 기록하는 내용을 설명하는 새로운 소프트웨어를 통해 시각 장애가 있거나 시력이 낮은 사람들이 색상과 질감의 세계에 더 쉽게 접근할 수 있게 될 것입니다.

그만큼WorldScribe라고 불리는 이 제품은 미시간 대학 연구진이 설계했으며 2024년에 발표될 예정입니다.사용자 인터페이스 소프트웨어 및 기술에 관한 ACM 심포지엄피츠버그에서.

그만큼공부하다"WorldScribe: 상황 인식 실시간 시각적 설명을 향하여"라는 제목이 붙어 있으며arXiv사전 인쇄 서버.

이 도구는 GenAI(생성 AI) 언어 모델을 사용하여 카메라 이미지를 해석하고 실시간으로 텍스트 및 오디오 설명을 생성하여 사용자가 주변 환경을 더 빨리 인식할 수 있도록 도와줍니다.사용자의 명령이나 물체가 카메라 프레임에 있는 시간에 따라 세부 수준을 조정할 수 있으며 볼륨은 혼잡한 방, 분주한 거리, 시끄러운 음악과 같은 시끄러운 환경에 자동으로 조정됩니다.

크레딧: Ruei-Che Chang

이 도구는 10월 14일 오후 6시(EST)에 시연될 예정이며, 주최자가 컨퍼런스에서 최고 중 하나로 선정한 도구에 대한 연구는 10월 16일 오후 3시 15분(EST)에 발표될 예정입니다.

"우리를 위해, 이는 우리가 세상과 협력하는 방식에 정말로 혁명을 일으킬 수 있습니다."라고 선천적으로 시각 장애가 있었고 WorldScribe 시험 연구에 참여한 Sam Rau가 말했습니다.

"나는 시각에 대한 개념이 없지만, 도구를 사용했을 때 현실 세계의 그림을 얻었고 다른 방법으로는 접근할 수 없는 모든 색상과 질감에 흥분했습니다." Rau말했다.

"시각 장애인으로서 우리는 주변에서 일어나는 일을 하나씩 그림으로 채우고 있으며 더 큰 그림을 만들려면 많은 정신적 노력이 필요할 수 있습니다. 하지만 이 도구는 정보를 올바르게 파악하는 데 도움이 될 수 있습니다.제 생각에는 무슨 일이 일어나고 있는지 파악하기보다는 인간으로서의 존재에만 집중할 수 있도록 도와주는 것 같아요. 그것이 진정 우리에게 얼마나 큰 기적인지 말로 표현할 수 있을지 모르겠습니다."

Real-time descriptions of surroundings for people who are blind
사용자가 방 주위를 천천히 움직일 때 WorldScribe는 GPT-4를 사용하여 개체에 대한 다채로운 설명을 만듭니다.노트북을 찾는 데 도움을 요청하면 도구는 방에 있는 노트북에 대한 자세한 설명을 우선적으로 처리합니다.출처: Shen-Yun Lai, 허가를 받아 사용함

실험 연구 동안 라우는 스마트폰이 장착된 헤드셋을 착용하고 연구실을 돌아다녔다.휴대폰 카메라는 이미지를 무선으로 서버에 전송했고, 서버는 책상 위의 노트북, 서류 더미, TV, 근처 벽에 걸린 그림 등 카메라 프레임 안의 개체에 대한 텍스트 및 오디오 설명을 거의 즉시 생성했습니다.

설명은 카메라에 보이는 모든 것과 일치하도록 지속적으로 변경되어 Rau에 가장 가까운 물체를 우선시합니다.책상을 잠깐 살펴보면 한 단어로 간단하게 설명할 수 있었지만, 좀 더 자세히 살펴보니 그 위에 정리된 폴더와 서류에 대한 정보가 드러났습니다.

이 도구는 세 가지 AI 언어 모델 간에 전환하여 설명의 세부 수준을 조정할 수 있습니다.YOLO World 모델은 카메라 프레임에 잠깐 나타나는 객체에 대한 매우 간단한 설명을 빠르게 생성합니다.오랜 시간 동안 프레임에 남아 있는 개체에 대한 자세한 설명은 ChatGPT 기반 모델인 GPT-4에서 처리됩니다.또 다른 모델인 Moondream은 중간 수준의 세부 정보를 제공합니다.

"AI를 활용하는 기존 보조 기술 중 다수는 특정 작업에 초점을 맞추거나 일종의 단계별 상호 작용이 필요합니다. 예를 들어 사진을 찍으면 결과를 얻을 수 있습니다."라고 컴퓨터 과학 조교수인 Anhong Guo는 말했습니다.엔지니어링 및 해당 연구의 교신 저자.

"실시간 경험에 대한 풍부하고 상세한 설명을 제공하는 것은Guo는 "접근성 도구를 위해 점점 더 많은 능력을 갖춘 AI 모델을 사용하여 실시간으로 자동화되고 적응 가능한 설명을 만들 수 있는 기회를 보았습니다."라고 말했습니다.

GenAI를 사용하기 때문에 WorldScribe는 사용자가 도구에서 찾도록 요청한 개체에 대한 설명의 우선순위를 지정하는 등 사용자가 제공한 작업이나 쿼리에 응답할 수도 있습니다.그러나 일부 연구 참여자들은 이 도구가 스포이드 병과 같은 특정 물체를 감지하는 데 문제가 있다고 지적했습니다.

Rau는 이 도구가 현재 상태로는 일상적으로 사용하기에는 여전히 약간 투박하지만 스마트 안경이나 다른 웨어러블 장치에 통합될 수 있다면 매일 사용할 것이라고 말합니다.

연구원들은 U-M Innovation Partnerships의 도움으로 특허 보호를 신청했으며 기술을 개선하고 시장에 출시하는 데 도움을 줄 파트너를 찾고 있습니다.

Guo는 또한 U-M 정보대학원의 정보 조교수이기도 합니다.

추가 정보:Ruei-Che Chang 외, WorldScribe: 상황 인식 실시간 시각적 설명을 향하여,arXiv(2024).DOI: 10.1145/3654777.3676375

저널 정보: arXiv

소환:AI 기반 소프트웨어가 시각 장애인을 위한 주변 환경을 실시간으로 설명합니다(2024년 10월 10일)2024년 10월 10일에 확인함https://techxplore.com/news/2024-10-ai-powered-software-narrates-visually.html에서

이 문서는 저작권의 보호를 받습니다.사적인 학습이나 조사를 목적으로 하는 공정한 거래를 제외하고는 어떠한 행위도 허용되지 않습니다.서면 허가 없이 일부를 복제할 수 있습니다.콘텐츠는 정보 제공 목적으로만 제공됩니다.