Phonexia lanza nuevos modelos de voz a texto: ucraniano y serbio

Phonexia lanza nuevos modelos de voz a texto: ucraniano y serbio

abril 17, 2023

Por en Blog

Han pasado varios meses desde que Phonexia amplió su cartera con nuevos modelos de reconocimiento de voz. Por lo tanto, ahora estamos encantados de anunciar el lanzamiento de dos modelos de voz a texto nuevos: ucraniano y serbio.

Voz a texto en serbio

Crear un buen modelo de voz a texto para el idioma serbio ha sido un gran reto para nosotros. ¿Por qué? Principalmente por la relativamente reciente estandarización de la lengua serbia y por su contacto histórico y cultural con las lenguas contiguas.

La lengua serbia desde el punto de vista lingüístico

En las últimas décadas se han producido procesos de estandarización del serbio, el croata, el bosnio y el montenegrino que ha tenido una innegable relevancia para estos países.

Sin embargo, también somos conscientes de que en lingüística estas cuatro variedades se suelen considerar una única lengua que es pluricéntrica (es decir, una lengua con diferentes estándares nacionales, similar a la situación del inglés o el español).

Esta (macro)lengua se denomina serbocroata, serbocroata-bosnio e incluso serbocroata-bosnio-montenegrino. Es decir, aunque cada país tiene su(s) forma(s) típica(s) de hablar con sus propias especificidades, características y normas estándar, comparten una enorme cantidad de rasgos en pronunciación, vocabulario y gramática.

Modelo de voz a texto actualizado, versátil y robusto

No sólo hemos utilizado diversos conjuntos de datos para entrenar el modelo acústico, sino que también hemos prestado especial atención al modelo lingüístico. Está formado principalmente por datos de texto en serbio, contiene lenguaje actual en cuanto a temas y vocabulario y es extremadamente robusto.

Por otro lado, no podíamos haber ignorado el hecho de que el serbocroata es un enorme continuo dialectal (es decir, conjunto de variedades lingüísticas habladas en territorios colindantes con diferencias pequeñas en zonas vecinas). De hecho, lo hemos tomado como un reto. Un reto de hacer que nuestra conversión de voz a texto funcione bien incluso en las zonas de Croacia, Bosnia y también Montenegro. Por lo tanto, enriquecimos el modelo serbio con los datos acústicos y textuales croatas y bosnios. Gracias a ello el voz a texto es más robusto y capaz de manejar bien la transcripción de diversos dialectos del serbocroata.

La evaluación final del voz a texto serbio ha mostrado una precisión de entre el 68% al 86% dependiendo del conjunto de datos elegido.

¿Por qué el alfabeto latino?

El nuevo modelo de voz a texto serbio utiliza el alfabeto latino, aunque la escritura oficial de la administración serbia es el cirílico. La decisión de dar preferencia al latino se debe a dos razones prácticas.

- En Serbia no sólo lo utilizan los hablantes particulares, sino también los periódicos, las páginas web, las redes sociales etc.

- El alfabeto latino facilita el uso de nuestra tecnología a muchas personas de origen lingüístico no serbio.

Voz a texto en ucraniano

Hablado por más de 30 millones de personas, el ucraniano es el tercer idioma eslavo del mundo. Por eso —y por la actual situación geopolítica— merece un lugar en nuestra cartera de soluciones de voz a texto.

Un vistazo al idioma ucraniano

Aunque el ucraniano es la única lengua oficial de Ucrania, es cierto que hay aproximadamente 13 millones de hablantes nativos del ruso en el país. Esa puede ser la razón por la que, a veces, se considera erróneamente que el ucraniano es el dialecto del ruso.

Sí, ambas son lenguas eslavas orientales y sí, son parecidas, pero definitivamente son dos lenguas distintas (como lo son el sueco y el noruego o el español y el portugués). Y a pesar de sus similitudes y ligero solapamiento de vocabulario (típico de lenguas contiguas), podemos observar sus diferencias en todos los niveles posibles: pronunciación, palabras, morfología y gramática.

Diccionario actualizado

Voz a texto ucraniano se ha entrenado a partir de un enorme modelo lingüístico que contiene las palabras que incluyen temas recientes como el covid-19 o los últimos acontecimientos geopolíticos.

Gracias a ello, la conversión de voz a texto en ucraniano es muy robusta y durante nuestras pruebas internas ha alcanzado una precisión de entre el 61 % y el 85 %, dependiendo del conjunto de datos elegido.

Pruébelos

En total, decenas de millones de hablantes de varios países europeos hablan ucraniano y serbio. Convierta su habla en texto fácilmente con nuestros nuevos modelos.

¡Compártelo ahora!

Entradas recientes