Manual transcription still beats AI: A comparative study on transcription services
De Hashes a Ashes: una comparación de servicios de transcripción.Crédito: CISPA

Un equipo de investigación del Apoyo a la Investigación Empírica (ERS) del Centro Helmholtz para la Seguridad de la Información de CISPA ha realizado una comparación sistemática de los servicios de transcripción más populares.En la comparación participaron 11 proveedores de transcripciones manuales y basadas en inteligencia artificial.

Muestra que, a pesar de la buena calidad, estos últimos todavía tienen problemas con la atribución del hablante y que existen discrepancias entre la grabación yque distorsionan el significado.Whisper AI de OpenAI obtuvo los mejores resultados entre los proveedores de IA.

Las entrevistas son un método popular para recopilar.Existe una distinción básica entre entrevistas cuantitativas y cualitativas.Mientras que el primero está diseñado para obtener información estadísticamente utilizable de un gran número de participantes con la ayuda de cuestionarios estandarizados, el segundo tiene como objetivo obtener datos de entrevistas que permitan la interpretación por parte de los investigadores.

Un tipo especial es la entrevista guiada, en la que hay una lista preparada de preguntas, que, sin embargo, puede desviarse durante la entrevista.entrevista"En la investigación sobre ciberseguridad, estas entrevistas se utilizan para explorar los patrones de acción e interpretación de los actores que operan a través de medios digitales", explica el sociólogo Dr. Rafael Mrowczynski del equipo de Apoyo a la Investigación Empírica (ERS) de CISPA.El equipo de ERS asesora a los investigadores del Centro en cuestiones metodológicas.

Convertir un archivo de audio en texto

La transcripción es un paso crucial en el análisis de datos cualitativos."El procedimiento estándar es convertir las grabaciones de audio de las entrevistas en texto. Para la calidad de los datos es importante que las transcripciones sean adecuadas", explica Mrowczynski.Dependiendo del campo científico, existen diferentes estándares de transcripción.

"En"Normalmente trabajamos con transcripciones que reproducen con precisión el contenido de la conversación", afirma Mrowczynski. Por lo tanto, una transcripción adecuada sólo contiene las palabras habladas relevantes. Los investigadores pueden obtener la transcripción de dos maneras: o bien la crea el equipo de investigación.o la tarea se subcontrata a terceros proveedores.

Entre los proveedores externos, además de la transcripción manual, recientemente ha habido un gran entusiasmo por la transcripción automatizada basada en inteligencia artificial.Esto se debe a los saltos exponenciales en desarrollo y calidad que han experimentado las aplicaciones de IA en muchas áreas durante los últimos dos años.

Los investigadores del equipo ERS de CISPA querían saber qué proveedor del mercado logra los mejores resultados y cómo funciona la transcripción automatizada basada en IA en comparación con la transcripción manual.El objetivo era poder brindar a los investigadores de CISPA y a la comunidad de ciberseguridad una recomendación para trabajar con entrevistas cualitativas.

El enfoque del equipo de ERS

Para su proyecto de investigación, Mrowczynski y sus colegas, la Dra. Maria Hellenthal, el Dr. Rudolf Siegel y el Dr. Michael Schilling, crearon un conjunto de datos de prueba.Consistió en entrevistas individuales que duraron unos diez minutos y discusiones grupales con investigadores de CISPA en alemán e inglés.El contenido se centró en el campo de investigación de la ciberseguridad.

"Era importante incluir términos técnicos de la comunidad para poder evaluar la precisión de la transcripción", explica Mrowczynski.Algunas de las entrevistas se mejoraron adicionalmente con ruido de fondo para reflejar mejor los entornos reales de la investigación cotidiana.

Los datos se enviaron a once proveedores en diciembre de 2022. Entre ellos se encontraban los servicios de transcripción Amberscript, GoTranscript, QualTranscribe, Rev y Scribbl, así como los proveedores de transcripción basados ​​en inteligencia artificial Amazon Transcribe, AssemblyAI, Audiotranskription.de, Google Cloud, Microsoft.Azure y Whisper de OpenAI.

Para evaluar las transcripciones obtenidas, Mrowczynski y sus colegas crearon una transcripción de referencia que sirvió de base para el análisis comparativo.El análisis en sí se centró entonces en dos criterios centrales.Primero, los investigadores evaluaron la tasa de error de palabras, que indica en cuántas palabras difiere una transcripción de la transcripción de referencia.En segundo lugar, la desviación cualitativa de la transcripción de referencia se codificó manualmente.

Los servicios de transcripción manual superan a la IA

En su artículo, Mrowczynski y sus colegas concluyen que, en general, "la mayoría de los servicios de transcripción manual logran un nivel de rendimiento encomiable, mientras que los servicios basados ​​en IA a menudo muestran discrepancias que distorsionan el significado entre la grabación y la transcripción".

La distorsión del significado puede verse claramente en términos técnicos;Mrowczynski explica: "En la transcripción, por ejemplo, el término 'hashes' se convirtió en 'ashes'".Así se nos ocurrió el título del artículo."

Whisper de OpenAI logró los mejores resultados entre los proveedores basados ​​en IA.La mayoría de los proveedores manejaban el inglés mejor que el alemán.Tres proveedores no ofrecían ninguna transcripción en alemán.El ruido de fondo en general tuvo un efecto negativo en el resultado.Los proveedores basados ​​en IA tuvieron problemas especialmente con la asignación de oradores.

Además, las transcripciones creadas por una IA tuvieron que reformatearse antes de que fuera posible procesarlas en un software para el análisis de datos cualitativos.Sin embargo, los investigadores señalan que su análisis refleja el estado de la técnica a diciembre de 2022 y que no se pudieron tener en cuenta los desarrollos actuales.

La investigación fuepresentadoen la Conferencia CCS ACM de 2023 sobre seguridad informática y de las comunicaciones.

Más información:Rudolf Siegel et al, Póster: De Hashes a Ashes: una comparación de servicios de transcripción,Actas de la Conferencia ACM SIGSAC 2023 sobre seguridad informática y de las comunicaciones(2023).DOI: 10.1145/3576915.3624380

Proporcionado porCentro CISPA Helmholtz para la seguridad de la información

Citación:La transcripción manual aún supera a la IA: un estudio comparativo sobre servicios de transcripción (5 de abril de 2024)recuperado el 5 de abril de 2024de https://techxplore.com/news/2024-04-manual-transcription-ai.html

Este documento está sujeto a derechos de autor.Aparte de cualquier trato justo con fines de estudio o investigación privados, noparte puede ser reproducida sin el permiso por escrito.El contenido se proporciona únicamente con fines informativos.