人工智慧軟體為視障人士即時講述周圍環境

2024-10-11 00:52:56

透過講述相機記錄內容的新軟體，盲人或弱視人士很快就能更容易接觸到色彩和紋理的世界。

透過講述相機記錄內容的新軟體，盲人或弱視人士很快就能更容易接觸到色彩和紋理的世界。

這工具名為 WorldScribe，由密西根大學研究人員設計，將於 2024 年在ACM 使用者介面軟體與技術研討會在匹茲堡。

這學習標題為“WorldScribe：邁向上下文感知的即時視覺描述”並出現在arXiv預印本伺服器。

該工具使用生成式人工智慧（GenAI）語言模型來解釋相機圖像並即時生成文字和音訊描述，以幫助用戶更快地了解周圍環境。它可以根據使用者的命令或物體在相機畫面中的時間長度來調整細節水平，並且音量會自動適應嘈雜的環境，例如擁擠的房間、繁忙的街道和吵鬧的音樂。

圖片來源：張瑞哲

該工具將於10 月14 日下午6:00（美國東部時間）進行演示，對該工具的研究（組織者認為該工具是會議上最好的工具之一）將於10 月16 日下午3: 15（美國東部時間）進行展示。

「對我們來說盲人，這確實可以徹底改變我們與世界合作的方式日常生活”，參與 WorldScribe 試驗研究的先天失明的 Sam Rau 說道。

「我沒有任何視覺概念，但當我嘗試這個工具時，我得到了真實世界的圖片，我對所有的顏色和紋理感到興奮，否則我無法獲得這些，」Rau說。

「作為一個盲人，我們正在一點一點地填充我們周圍發生的事情的圖片，並且需要花費大量的腦力才能創建更大的圖片。但是這個工具可以幫助我們獲得正確的信息在我看來，這有助於我們專注於做人，而不是弄清楚正在發生的事情，我不知道我是否可以用語言傳達這對我們來說確實是一個巨大的奇蹟。

在試驗研究期間，Rau 戴上配有智慧型手機的耳機，在研究實驗室裡走動。手機相機將影像無線傳輸到伺服器，伺服器幾乎立即產生相機畫面中物件的文字和音訊描述：桌子上的筆記型電腦、一堆檔案、一台電視和附近牆上掛著的畫作。

這些描述不斷變化，以配合相機視野中的任何內容，優先考慮距離勞最近的物體。瞥一眼桌子就可以得到一個簡單的單字描述，但仔細觀察就會得到關於放在上面的資料夾和檔案的資訊。

該工具可以透過在三種不同的人工智慧語言模型之間切換來調整描述的詳細程度。YOLO World 模型可以快速產生短暫出現在相機畫面中的物體的非常簡單的描述。長時間保留在幀中的物件的詳細描述由 GPT-4（ChatGPT 背後的模型）處理。另一個模型 Moondream 提供中等程度的細節。

「現有的許多利用人工智慧的輔助技術都專注於特定任務或需要某種逐步互動。例如，你拍一張照片，然後得到一些結果，」電腦科學助理教授郭安紅說和工程學以及該研究的通訊作者。

「為現場體驗提供豐富而詳細的描述是一個大挑戰郭說。 “我們看到了使用功能日益強大的人工智慧模型來即時創建自動化和自適應描述的機會。”

由於它依賴 GenAI，WorldScribe 還可以響應用戶提供的任務或查詢，例如對用戶要求工具查找的任何物件的描述進行優先排序。然而，一些研究參與者指出，該工具無法偵測某些物體，例如滴管瓶。

Rau 表示，該工具在目前的狀態下對於日常使用來說仍然有點笨重，但他表示，如果它可以整合到智慧眼鏡或其他穿戴裝置中，他會每天使用它。

研究人員已在密西根大學創新合作夥伴關係的協助下申請了專利保護，並正在尋找合作夥伴來幫助完善該技術並將其推向市場。

郭也是密西根大學資訊學院的資訊助理教授。

更多資訊：Ruei-Che Chang 等人，WorldScribe：邁向情境感知的即時視覺描述，arXiv（2024）。DOI：10.1145/3654777.3676375

期刊資訊： arXiv

引文:AI驅動的軟體為視障人士即時講述周遭環境（2024年10月10日）檢索日期：2024 年 10 月 10 日來自 https://techxplore.com/news/2024-10-ai-powered-software-narrates-visually.html

本文檔受版權保護。除了出於私人學習或研究目的的任何公平交易外，不得未經書面許可，不得複製部分內容。所提供的內容僅供參考。