Cómo la diversidad lingüística afecta la precisión de voz a texto

Cómo la diversidad lingüística afecta la precisión de voz a texto

junio 26, 2023

Por en Blog

Los modelos de voz a texto funcionan cada vez mejor. El valor porcentual de la precisión varía de lengua en lengua, lo cual, naturalmente, puede llevarnos a una pregunta: ¿puede el tipo de lengua influir en la precisión del modelo?

En este artículo veremos qué tipos de lenguas existen según su estructura gramatical y cómo esta puede afectar el valor porcentual de la precisión de la transcripción, pero no necesariamente la precisión percibida por el usuario.

¿Cómo se mide la precisión de la transcripción?

La precisión de la transcripción (Word Accuracy) es un porcentaje que expresa cuántas palabras han sido transcritas correctamente con respecto a una transcripción de referencia.

Se obtiene cuando se resta el número de errores realizadas por el sistema de un número total de las palabras en la transcripción referencial.

Precisión de la transcripción = ((Número total de palabras – Errores)/Número total de palabras) * 100

¿Qué se entiende como error?

  • sustitución (tenemos un gato => tenemos un pato)
  • supresión (lo hablamos con la amiga de Clara => lo hablamos con la de Clara)
  • inserción (la amiga que dice eso => la amiga que que dice eso).

A menudo los usuarios creen que este porcentaje es clave y que es una medida unívoca del éxito del sistema. Sin embargo, no siempre es así, porque si la precisión de la transcripción es 65 %, la precisión percibida (la legibilidad del texto y la presencia de la información relevante) puede ser mucho más alta, sobretodo en lenguas flexivas como el ruso o el alemán.

La diversidad lingüística

Aunque la precisión de la transcripción depende principalmente de la arquitectura del sistema y de los datos de entrenamiento (por ejemplo, cantidad y calidad de los datos) hay algo más que determina estas medidas: las características tipológicas de la lengua.

Hace casi dos siglos que los lingüistas se dieron cuenta de que en el mundo existen dos tipos de lenguas –lenguas más analíticas y lenguas más sintéticas– dependiendo de la estructura más o menos compleja de sus palabras. Para explicar mejor en qué difieren, primero necesitamos entender qué es un morfema.

Palabras con muchos y pocos morfemas

Morfema es la menor unidad significativa de la lengua. Una palabra puede constar de uno o varios morfemas. Veamos algunos ejemplos:

  • La palabra dog en inglés solo tiene un morfema mientras que la palabra dogs tiene dos: la raíz dog y la s que designa el plural.
  • La palabra checa nezahodil (“no ha tirado”) consiste en cuatro morfemas: ne (“no”), za (“fuera”), hodi (“tir-”), l (“-ado”).

Pero volvamos a la definición de los dos tipos de lenguas:

  • Lenguas analíticas son lenguas que tienen tendencia a separar morfemas, es decir que las palabras contienen frecuentemente solo uno o dos morfemas, p. ej. natural science en inglés.
  • Lenguas sintéticas son aquellas que acumulan más morfemas en una palabra, p. ej. Naturwissenshaft en alemán.

Por supuesto, existen lenguas como el francés, el portugués, el español, que tienen ciertas características analíticas, por ejemplo, la falta de declinación de los sustantivos y adjetivos (con mi mejor amiga, para mi mejor amiga, de mi mejor amiga) y, al mismo tiempo, características sintéticas, como la conjugación de los verbos (he tirado, tiré, tire, tiraré, tiraríamos).

El número de palabras importa

Las lenguas analíticas destacan por un número mucho más bajo de palabras y número más alto de combinaciones de estas palabras que las lenguas sintéticas. Las lenguas sintéticas, por otro lado, tienen más palabras porque son morfológicamente más ricas gracias a los compuestos, afijos y desinencias. Comparemos formas de decir “perro” en inglés (lengua analítica) y en checo (lengua sintética):

Inglés Checo
A dog pes
I see a dog vidím psa
About a dog o psovi
With a dog se psem
For a dog pro psa

Por eso, en lenguas analíticas, cada palabra única (dog en este caso) ocurre más frecuentemente en el modelo lingüístico de voz a texto de una lengua analítica, es decir que cada palabra se ve mucho más representada en distintos contextos que en el caso de las lenguas sintéticas.

Eso significa que mientras un modelo lingüístico de una lengua analítica trabaja con solo 300 mil palabras de ocurrencia frecuente, el de las lenguas sintéticas cuenta con más de un millón.

Gracias a este hecho hay tendencia a mayor precisión de transcripción de voz a texto en modelos de lenguas analíticas, como p. ej. inglés, danés, chino, búlgaro, vietnamita, tailandés y parcialmente español, francés o italiano. En lenguas más sintéticas como ruso, checo, eslovaco, polaco, alemán, húngaro o turco la precisión es ligeramente más baja debido a la medición de la precisión estricta.

¿Funciona peor el voz a texto con lenguas gramaticalmente más complejas? Sí y no

Si miramos el porcentaje de errores, este va a ser más alto en lenguas sintéticas debido a que cuando se mide la precisión de un modelo de voz a texto, no se evalúan los morfemas como correctos o incorrectos, sino las palabras. Y dado que la misma frase suele tener más palabras en lenguas analíticas que en las sintéticas, sube la posibilidad de error en estas últimas (He did not thow it away = Nezahodil to.).

Por ejemplo, la frase checa Nezahodila significa “(Ella) No lo ha tirado”. Si la raíz de la palabra es transcrita correctamente, pero falta el sufijo -a –que designa el género femenino–, la frase entera es evaluada como incorrecta y recibe precisión 0 % a pesar de que se ha mantenido mayor parte de su significado.

A diferencia, si el mismo error ocurriera en inglés, que es una lengua mayoritariamente analítica, y “She did not throw it away” se transcribiría como “He did not throw it away”, la precisión sería 83 %.

Sin embargo, si leemos el texto (lo cual es especialmente obvio en el ejemplo checo más arriba), estos errores no suponen gran obstáculo en comprensión del texto.

Veamos dos ejemplos de error en la transcripción –especialmente el primero donde la raíz de la palabra es correcta, pero el sufijo no– y comparemos la precisión percibida con la precisión porcentual (Word Accuracy) de estos ejemplos.

Referencia
Transcripción real
Precisión percibida
Precisión de la transcripción
[CZ] Zhasli světlo.
(Han apagado la luz.)
Zhasl světlo.
(Ha apagado la luz.)
Muy alta
50%
[TR] Yemek hakkında konuşmaya gelmedi.
(Ella no ha venida para hablar de comida.)
Balık hakkında konuşmaya gelmedi.
(Ella no ha venido para hablar del pescado.)
Bastante alta
75%

Como se puede ver, a pesar de la precisión de la transcripción baja, la precisión percibida es muy alta.

Conclusión

A parte de la calidad de los datos y los procesos de entrenamiento, el tipo de la lengua también puede influir en la precisión de la trascripción de un modelo de voz a texto. Las lenguas sintéticas (que tienen más palabras en total) pueden mostrar precisión más baja en porcentajes, pero no necesariamente peor precisión percibida.

Por lo tanto, es esencial tener en cuenta que la precisión de la transcripción (Word Accuracy) es solo una manera de señalar el rendimiento de los modelos de reconocimiento de voz. A parte de ella, podemos evaluar el modelo a partir de nuestra comprensión o percepción del texto, ya que a menudo lo clave para los usuarios es precisamente la legibilidad del texto y la presencia de la información relevante.

¡Compártelo ahora!

Entradas recientes