La inteligencia artificial aplicada al habla aún tiene una gran limitación: de los miles de idiomas existentes, solo unos pocos cuentan con soporte en modelos de voz. Esto deja fuera a una gran parte de la población mundial y reduce el alcance de las soluciones tecnológicas. Para cambiar esta situación, NVIDIA ha lanzado nuevas herramientas: Granary, Canary y Parakeet.
Granary de NVIDIA: un corpus abierto y masivo
El proyecto se apoya en Granary, un corpus de datos multilingüe de gran escala con alrededor de un millón de horas de audio. De estas, más de 600,000 horas corresponden a reconocimiento de voz y unas 350,000 a traducción.

Al ser de código abierto, este recurso facilita la creación de aplicaciones prácticas como chatbots multilingües, asistentes de voz en atención al cliente o sistemas de traducción casi en tiempo real.
NVIDIA lanza modelos de alto rendimiento: Canary y Parakeet
A partir de Granary, NVIDIA ha desarrollado dos modelos diseñados para diferentes necesidades. Canary-1b-v2 ofrece transcripciones y traducciones de gran precisión en 25 lenguas, con un rendimiento comparable a modelos mucho más grandes, pero funcionando hasta diez veces más rápido.
Por su parte, Parakeet-tdt-0.6b-v3 está optimizado para la velocidad y puede procesar largos fragmentos de audio con baja latencia, lo que lo hace ideal para contextos en los que la rapidez es fundamental.
Inclusión lingüística y eficiencia en el entrenamiento
Una de las principales ventajas de Granary es que permite trabajar con idiomas poco representados en la IA del habla, fomentando una mayor inclusión lingüística.
Además, el proceso de entrenamiento resulta más eficiente: se necesita casi la mitad de los datos que otros conjuntos similares para alcanzar los mismos niveles de precisión en reconocimiento y traducción automática. Esto reduce el costo y acelera el desarrollo de nuevas aplicaciones.
Con Granary, Canary y Parakeet, NVIDIA no solo libera datos y modelos de vanguardia, sino también la metodología que hizo posible su creación. Esto abre la puerta a que la comunidad global de desarrolladores adapte estas herramientas a más idiomas y contextos.
Vía NVIDIA






