Real-time descriptions of surroundings for people who are blind
ユーザーが部屋の周囲で携帯電話のカメラをスキャンすると、WorldScribe はカメラによって記録されたオブジェクトの簡単な音声説明を作成します。クレジット: Shen-Yun Lai、許可を得て使用

カメラが記録した内容をナレーションする新しいソフトウェアを介して、色と質感の世界が視覚障害者や低視力の人にとってすぐにアクセスしやすくなる可能性があります。

WorldScribe と呼ばれるこの製品は、ミシガン大学の研究者によって設計され、2024 年の国際展示会で発表される予定です。ユーザー インターフェイス ソフトウェアとテクノロジーに関する ACM シンポジウムピッツバーグで。

勉強「WorldScribe: Towards Context-Aware Live Visual descriptions」というタイトルで、arXivプレプリントサーバー。

このツールは、生成 AI (GenAI) 言語モデルを使用してカメラ画像を解釈し、リアルタイムでテキストと音声の説明を生成することで、ユーザーが周囲の状況をより迅速に認識できるようにします。ユーザーのコマンドやカメラのフレーム内にオブジェクトが存在する時間の長さに基づいて詳細レベルを調整でき、混雑した部屋、交通量の多い通り、大音量の音楽などの騒がしい環境に音量が自動的に適応します。

クレジット: Ruei-Che Chang

このツールは東部標準時間10月14日午後6時からデモンストレーションが行われ、主催者がカンファレンスで最高のツールの1つと認定したツールの研究は東部標準時間10月16日午後3時15分に発表されます。

「私たちにとっては、これは私たちが世界と協力する方法に本当に革命を起こす可能性があります。」と、生まれつき目が見えず、WorldScribe の治験研究に参加した Sam Rau 氏は語った。

「私には視覚という概念がありませんが、このツールを試してみると、現実世界の写真が得られ、他の方法ではアクセスできないすべての色と質感に興奮しました」とラウ氏は言います。言った。

「視覚障害者である私たちは、自分の周囲で何が起こっているのかを少しずつ埋めていくようなもので、全体像を描くには多大な精神的努力が必要になります。しかし、このツールは、正しい情報を得るのに役立ちます。私の考えでは、離れたことは、何が起こっているのかを理解するのではなく、人間であることに集中するのに役立ちます。それが私たちにとって本当に大きな奇跡であることを言葉で伝えることができるかどうかさえわかりません。」

Real-time descriptions of surroundings for people who are blind
ユーザーが部屋の中をゆっくりと移動しているとき、WorldScribe は GPT-4 を使用してオブジェクトのカラフルな説明を作成します。ラップトップを探すのを手伝ってほしいと頼まれた場合、このツールは部屋にあるラップトップの詳細な説明を優先します。クレジット: Shen-Yun Lai、許可を得て使用

試験研究中、ラウさんはスマートフォンを備えたヘッドセットを装着し、研究室を歩き回った。携帯電話のカメラは画像をワイヤレスでサーバーに転送し、カメラのフレーム内のオブジェクト (机の上のラップトップ、書類の山、テレビ、近くの壁に取り付けられた絵画) のテキストと音声による説明がほぼ瞬時に生成されました。

カメラの視界にあるものに合わせて説明が常に変更され、ラウに最も近いオブジェクトが優先されます。机をざっと見ただけでは、一言で簡単な説明が得られましたが、さらに詳しく調べると、その上に並べられたフォルダーと書類に関する情報が得られました。

このツールは、3 つの異なる AI 言語モデルを切り替えることで、説明の詳細レベルを調整できます。YOLO World モデルは、カメラ フレーム内に短時間現れるオブジェクトの非常に単純な説明を迅速に生成します。フレーム内に長時間残るオブジェクトの詳細な記述は、ChatGPT の背後にあるモデルである GPT-4 によって処理されます。別のモデルである Moondream は、中間レベルの詳細を提供します。

「AIを活用した既存の支援技術の多くは、特定のタスクに焦点を当てているか、何らかのターンバイターンのインタラクションを必要とします。たとえば、写真を撮ると、何らかの結果が得られます」とコンピューターサイエンスの助教授、Anhong Guo氏は述べた。工学および研究の責任著者。

「ライブ体験について豊富で詳細な説明を提供することは、「私たちは、ますます機能が向上する AI モデルを使用して、自動化された適応型の記述をリアルタイムで作成する機会があると考えました。」と Guo 氏は述べました。

WorldScribe は GenAI に依存しているため、ユーザーがツールに検索を要求したオブジェクトの記述の優先順位付けなど、ユーザーが提供したタスクやクエリに応答することもできます。ただし、一部の研究参加者は、このツールではスポイト瓶などの特定の物体の検出に問題があると指摘しました。

ラウ氏は、このツールは現状のままでは日常的に使うにはまだ少し不格好だが、スマートグラスや他のウェアラブルデバイスに統合できれば毎日使いたいと語る。

研究者らは、U-Mイノベーション・パートナーシップの支援を受けて特許保護を申請しており、技術の改良と市場投入を支援するパートナーを探している。

Guo は、U-M 情報学部の情報助教授でもあります。

詳細情報:Ruei-Che Chang 他、WorldScribe: Towards Context-Aware Live Visual descriptions、arXiv(2024年)。DOI: 10.1145/3654777.3676375

雑誌情報: arXiv

引用:AI を活用したソフトウェアが視覚障害者に周囲の状況をリアルタイムで伝える (2024 年 10 月 10 日)2024 年 10 月 10 日に取得https://techxplore.com/news/2024-10-ai-powered-software-narrates-visually.html より

この文書は著作権の対象です。個人的な研究や研究を目的とした公正な取引を除いて、書面による許可なく一部を複製することができます。コンテンツは情報提供のみを目的として提供されています。