Manual transcription still beats AI: A comparative study on transcription services
ハッシュから灰へ – 文字起こしサービスの比較。クレジット: CISPA

CISPA ヘルムホルツ情報セキュリティセンターの Empirical Research Support (ERS) の研究チームは、最も人気のある文字起こしサービスの体系的な比較を実施しました。比較には、マニュアルと AI ベースの文字起こしの提供者 11 社が参加しました。

これは、品質は良いにもかかわらず、後者には話者の帰属に関して依然として問題があり、録音と録音の間に不一致があることを示しています。意味を歪めるもの。OpenAI の Whisper AI は、AI プロバイダーの中で最高の結果をもたらしました。

インタビューは情報収集の一般的な方法です。定量的インタビューと定性的インタビューには基本的な違いがあります。前者は標準化されたアンケートを利用して多数の参加者から統計的に利用可能な情報を取得することを目的としていますが、後者は研究者による解釈を可能にするインタビューデータを取得することを目的としています。

特別な種類のガイド付き面接では、質問のリストが用意されていますが、面接中にリストから逸脱する可能性があります。インタビュー「サイバーセキュリティ研究において、これらのインタビューは、デジタル手段を通じて活動する行為者の行動パターンと解釈を調査する際に利用されます」と、CISPA 実証研究支援 (ERS) チームの社会学者ラファエル・ムロウチンスキー博士は説明します。ERS チームは、方法論上の問題についてセンターの研究者にアドバイスを行っています。

音声ファイルをテキストに変換する

文字起こしは、定性データ分析における重要なステップです。「標準的な手順は、インタビューの音声記録をテキストに変換することです。データの品質にとって、文字起こしが適切であることが重要です」とムロウチンスキー氏は説明します。科学分野に応じて、転写には異なる基準があります。

"で「私たちは通常、会話の内容を正確に再現したトランスクリプトを使用して作業します」とムロウチンスキー氏は言います。したがって、適切なトランスクリプトには、関連する話し言葉のみが含まれます。研究者は、トランスクリプトを 2 つの方法で入手できます。研究チームが作成する方法のいずれかです。それ自体、またはタスクがサードパーティプロバイダーに委託されます。

サードパーティプロバイダーの間では、手動による文字起こしに加えて、自動化された AI ベースの文字起こしが最近大々的に宣伝されています。これは、過去 2 年間で AI アプリケーションの開発と品質が多くの分野で飛躍的に向上したためです。

CISPA の ERS ​​チームの研究者は、市場でどのプロバイダーが最良の結果を達成しているのか、また自動化された AI ベースの文字起こしが手動の文字起こしと比較してどのように機能するのかを知りたいと考えていました。目標は、CISPA の研究者とサイバーセキュリティ コミュニティに、定性的インタビューに取り組むための推奨事項を提供できるようにすることでした。

ERS チームのアプローチ

研究プロジェクトのために、Mrowczynski と同僚の Maria Hellenthal 博士、Rudolf Siegel 博士、Michael Schilling 博士はテスト データセットを作成しました。これは約 10 分間の個人面接と、ドイツ語と英語での CISPA 研究者とのグループディスカッションで構成されました。内容はサイバーセキュリティの研究分野に焦点を当てたものでした。

「転写の精度を評価できるように、コミュニティからの専門用語を含めることが重要でした」とムロウチンスキー氏は説明します。インタビューの一部は、日常の研究における実際の状況をよりよく反映するために、背景ノイズをさらに加えて強化されました。

データは、2022 年 12 月に 11 のプロバイダーに送信されました。その中には、文字起こしサービスの Amberscript、GoTranscript、QualTranscribe、Rev、Scribbl や、AI ベースの文字起こしプロバイダーである Amazon Transcribe、AssemblyAI、Audiotranskription.de、Google Cloud、Microsoft が含まれていました。Azure、および OpenAI の Whisper。

得られた転写産物を評価するために、Mrowczynski と彼の同僚は、比較分析の基礎となる参照転写産物を作成しました。その後、分析自体は 2 つの中心的な基準に焦点を当てました。まず、研究者らは単語誤り率を評価しました。これは、トランスクリプトが参照トランスクリプトと何語異なっているかを示します。第 2 に、参照トランスクリプトからの定性的な逸脱が手動でコード化されました。

手動文字起こしサービスが AI に勝つ

Mrowczynski 氏らは論文の中で、一般に「手動による文字起こしサービスのほとんどは賞賛に値するレベルのパフォーマンスを達成しているが、AI ベースのサービスでは録音と文字起こしの間に意味を歪めるような不一致が見られることが多い」と結論付けている。

意味の歪みは専門用語ではっきりとわかります。ムロウチンスキー氏は、「例えば、記録では、『ハッシュ』という用語が『灰』になった」と説明する。それが私たちが論文のタイトルを思いついた方法です。」

OpenAI の Whisper は、AI ベースのプロバイダーの中で最高の結果を達成しました。ほとんどのプロバイダーはドイツ語よりも英語の方が上手に対応していました。3 つのプロバイダーはドイツ語の文字起こしをまったく提供していませんでした。一般に、背景ノイズは結果に悪影響を及ぼします。AI ベースのプロバイダーは、特にスピーカーの割り当てに問題を抱えていました。

さらに、AI によって作成されたトランスクリプトは、定性データ分析のためにソフトウェアでさらに処理できるようにする前に、再フォーマットする必要がありました。しかし、研究者らは、彼らの分析は2022年12月時点の最新技術を反映しており、現在の開発は考慮されていないと指摘している。

研究内容は、提示されたコンピューターと通信セキュリティに関する 2023 CCS ACM カンファレンスで。

詳細情報:Rudolf Siegel 他、ポスター: ハッシュから灰へ - 転写サービスの比較、コンピュータおよび通信セキュリティに関する 2023 年 ACM SIGSAC カンファレンスの議事録(2023年)。DOI: 10.1145/3576915.3624380

提供元CISPA ヘルムホルツ情報セキュリティセンター

引用:手動による文字起こしは依然として AI に勝ります: 文字起こしサービスに関する比較研究 (2024 年 4 月 5 日)2024 年 4 月 5 日に取得https://techxplore.com/news/2024-04-manual-transcription-ai.html より

この文書は著作権の対象です。個人的な研究や研究を目的とした公正な取引を除き、書面による許可なく一部を複製することができます。コンテンツは情報提供のみを目的として提供されています。