Categorías
Techies

Voz a Texto con CMUSphinx

El procesamiento de la voz para obtener texto es una de las cosas a las que más interés he prestado desde que empecé a pelearme con loa informática a bajo nivel. El reconocimiento de voz ha evolucionado muy rápido en el último lustro con la aparición es escena de los asistentes de Google, Apple y Microsoft. Pero no es nada nuevo, el reconocimiento de voz lleva entre nosotros desde hace mucho tiempo y la mejora actual es la tasa de respuesta.

Si quieres que tu proyecto reconozca la voz puedes recurrir a los servicios de estas grandes compañías. A cambio tu privacidad estará vendida. ¿Qieres cacharrear con un sistema de reconocimiento de voz de código abierto y totalmente offline?

Hoy os voy a hablar de CMUSphinx.

CMUSphinx es el proyecto que desarrolla el motor PocketSphinx. Existen diccionarios de idiomas para muchos idiomas entre ellos el español, pero lo ideal es crear tu propio diccionario para obtener los mejores resultados para el fin que te propongas.

Hoy vamos a poner a funcionar CMUSphinx en Windows con un diccionario disponible en la red para todo el que lo quiera usar.

Entra en la web del proyecto:

https://cmusphinx.github.io/

Descargate los siguientes dos proyectos en su versión win:


Una vez descomprimidos ambos ficheros, abrimos sphinxbase.sln del directorio sphinxbase con Visual Studio.

En mi caso tengo Visual Studio 2019 así que lo mejor es migrar la solución, que está en VS 2012, a esta versión más actualizada.

Para ello, botón derecho en la solución y pulsamos sobre “Redestinar solución”.

Tras esto compilamos el proyecto entero. No debería dar problemas.

Hacemos exactamente lo mismo paso por paso con el proyecto pocketsphinx.

Al final tendremos nuestro ejecutables compilados en los directorios .\bin\Release o .\bin\Debug las librerias en .\lib\Release o .\lib\Build.

Copiar todos los ficheros compilados en una misma ruta.

Ejecutamos:

pocketsphinx_continuous.exe -inmic yes -hmm modelo\es-es -lm modelo\es-20k.lm.bin -dict modelo\es.dict

Y… voila! Captando el audio.

Si os parece interesante puedo escribir un artículo para crear tu propio diccionario. He montado varios en sistemas UNIX y ahora estoy con un proyecto en Windows y puede ser interesante para mi también pero esta vez en Windows.

Saludetes

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *