Real-time descriptions of surroundings for people who are blind
当用户扫描房间周围的手机摄像头时,WorldScribe 将为摄像头记录的物体创建简短的音频描述。图片来源:Shen-Yun Lai,经许可使用

通过讲述相机记录内容的新软件,盲人或弱视人士很快就能更容易地接触到色彩和纹理的世界。

名为 WorldScribe,由密歇根大学研究人员设计,将于 2024 年在ACM 用户界面软件与技术研讨会在匹兹堡。

学习标题为“WorldScribe:迈向上下文感知的实时视觉描述”并出现在arXiv预印本服务器。

该工具使用生成式人工智能(GenAI)语言模型来解释相机图像并实时生成文本和音频描述,以帮助用户更快地了解周围环境。它可以根据用户的命令或物体在相机画面中的时间长度来调整细节水平,并且音量会自动适应嘈杂的环境,如拥挤的房间、繁忙的街道和吵闹的音乐。

图片来源:张瑞哲

该工具将于 10 月 14 日下午 6:00(美国东部时间)进行演示,对该工具的研究(组织者认为该工具是会议上最好的工具之一)将于 10 月 16 日下午 3:15(美国东部时间)进行展示。

“对于我们来说,这确实可以彻底改变我们与世界合作的方式”,参与 WorldScribe 试验研究的先天失明的 Sam Rau 说道。

“我没有任何视觉概念,但当我尝试这个工具时,我得到了真实世界的图片,我对所有的颜色和纹理感到兴奋,否则我无法获得这些,”Rau说。

“作为一个盲人,我们正在一点一点地填充我们周围发生的事情的图片,并且需要花费大量的脑力才能创建更大的图片。但是这个工具可以帮助我们获得正确的信息在我看来,这有助于我们专注于做人,而不是弄清楚正在发生的事情,我不知道我是否可以用语言传达这对我们来说确实是一个巨大的奇迹。”

Real-time descriptions of surroundings for people who are blind
当用户在房间内缓慢移动时,WorldScribe 将使用 GPT-4 创建丰富多彩的对象描述。当被要求帮助寻找笔记本电脑时,该工具将优先考虑房间中任何笔记本电脑的详细描述。图片来源:Shen-Yun Lai,经许可使用

在试验研究期间,Rau 戴上配有智能手机的耳机,在研究实验室里走动。手机摄像头将图像无线传输到服务器,服务器几乎立即生成摄像头画面中物体的文本和音频描述:桌子上的笔记本电脑、一堆文件、一台电视和附近墙上挂着的画作。

这些描述不断变化,以匹配相机视野中的任何内容,优先考虑距离劳最近的物体。瞥一眼桌子就可以得到一个简单的单词描述,但仔细观察就会得到关于放在上面的文件夹和文件的信息。

该工具可以通过在三种不同的人工智能语言模型之间切换来调整描述的详细程度。YOLO World 模型可以快速生成短暂出现在相机画面中的物体的非常简单的描述。长时间保留在帧中的对象的详细描述由 GPT-4(ChatGPT 背后的模型)处理。另一个模型 Moondream 提供中等程度的细节。

“现有的许多利用人工智能的辅助技术都专注于特定任务或需要某种逐步交互。例如,你拍一张照片,然后得到一些结果,”计算机科学助理教授郭安红说和工程学以及该研究的通讯作者。

“为现场体验提供丰富而详细的描述是一个郭说。“我们看到了使用功能日益强大的人工智能模型来实时创建自动化和自适应描述的机会。”

由于它依赖于 GenAI,WorldScribe 还可以响应用户提供的任务或查询,例如对用户要求工具查找的任何对象的描述进行优先级排序。然而,一些研究参与者指出,该工具无法检测某些物体,例如滴管瓶。

Rau 表示,该工具在目前的状态下对于日常使用来说仍然有点笨重,但他表示,如果它可以集成到智能眼镜或其他可穿戴设备中,他会每天使用它。

研究人员已在密歇根大学创新合作伙伴关系的协助下申请了专利保护,并正在寻找合作伙伴来帮助完善该技术并将其推向市场。

郭还是密歇根大学信息学院的信息助理教授。

更多信息:Ruei-Che Chang 等人,WorldScribe:迈向上下文感知的实时视觉描述,arXiv(2024)。DOI:10.1145/3654777.3676375

期刊信息: arXiv

引文:AI驱动的软件为视障人士实时讲述周围环境(2024年10月10日)检索日期:2024 年 10 月 10 日来自 https://techxplore.com/news/2024-10-ai-powered-software-narrates-visually.html

本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外,不得未经书面许可,不得复制部分内容。所提供的内容仅供参考。