Conclusión

Ya realizada la investigación y desarrollo del Sistema de órdenes de voz en software libre "Gpyvozcontrol", se concluye lo siguiente:

Se identificaron y estudiaron dos bibliotecas que permiten realizar reconocimiento de voz en software libre: a saber el motor de voz Julius que es un sistema de reconocimiento preciso en tiempo real, de alta velocidad, basado en la estrategia de doble paso y el motor CMUSphinx de la Universidad Carnegie Mellon, un conjunto de herramientas para el reconocimiento de voz que permite desarrollar juegos, entre otras aplicaciones.

También se identificó e incorporó al projecto la biblioteca WNCK, que permite saber cuáles ventanas del sistema están activas, además de poder realizar las acciones de minimizar, maximizar, ampliar, reducir y cerrarlas ventanas del sistema.

Se logró grabar a 34 personas (14 mujeres y 20 hombres). Es decir, se construyó un corpus de audio con un total de 5400 archivos de audio en español a 16000 bits, en canal estereo y 16 Khz para alimentar el modelo acústico tanto de la biblioteca Julius como CMUSphinx. Se menciona el hecho que estas grabaciones se realizaron en dos grupos, 15 personas grabaron 200 frases y 19 personas grabaron 125 grases.

Se crearon los modelos acústicos con las bibliotecas Julius y CMUSphinx que permiten reconocer las instrucciones de la gramática creada y que es utilizado por el Sistema de órdenes de voz. Se destacan cuatro pasos importantes en la creación de dichos modelos como son: la creación de la gramática, los archivos de configuración (archivos de pronunciación y transcripción), llamado modelo de lenguaje, codificación de los archivos de audio y la creación del modelo.

Entre las instrucciones que realiza "gpyvozcontrol" están: abrir aplicaciones (cliente de correo y mensajería, calculadora, editor de documentos y texto, hoja de calculo, editor de presentaciones, terminal, navegador, carpeta de archivos), también las acciones de minimizar, maximizar, ampliar, reducir y cerrar la ventana activa en la interfaz gráfica. Por último, el sistema permite manipular el reproductor de música (abrir el reproductor, ir a la siguiente o anterior canción) y el visualizador de PDF Evince (cambiar de lámina (siguiente o anterior), ir a una lámina específica).

El sistema de órdenes de voz fue creado con el lenguaje python, utilizando los modelos acústicos e integrados con las gramática creada. El sistema espera la palabra clave "vozcontrol" para luego esperar por la instrucción que desea realizar el usuario, este proceso se repite continuamente. "Gpyvozcontrol' también notifica con mensajes auditivos las acciones que realiza el usuario, lo que ayuda a una persona con discapacidad visual saber que ocurre en el sistema.

Otro punto importante es que las diferencias de los resultados obtenidos en las pruebas realizadas a los modelos acústicos se pueden deber principalmente a la calidad de las grabaciones, a la incorrecta pronunciación de las frases, la no uniformidad de las frases grabadas (se hizo dos grupos de grabaciones), la falta de un número mayor de audios para el entrenamiento. En todo caso, el nivel de reconocimiento con una herramienta prototipo como la que se describe y con un corpus de audio todav{\'\i}a limitado, supera el 50\%. La comprensión del diseño profundo de las bibliotecas de soporte y de los parámetros de cada una seguramente permitirán mejoras en ese nivel de reconocimiento en el corto plazo.

Aunque falta mucho por desarrollar en este sistema, se ha cumplido con los objetivos de este proyecto luego de un arduo trabajo de investigación y desarrollo, logrando construir un sistema que permite a una usuaria o usuario ejecutar con su voz algunas órdenes de voz en el escritorio de Gnome, además de manipular el evince y el reproductor de música, con notificaciones auditivas para ayudar a las personas con discapacidad visual. Esta una de las funcionalidades principales de este desarrollo, ya que corresponde con pautas para el acceso universal de cualquier persona y que siempre se deben tener en cuenta en todo sistema accesible.

Queda pendiente desarrollar extensiones al sistema que permitan ejecutar acciones como el guardar un texto, abrir un documento especifico, hacer dictado, busquedas en internet, entre otras muchas. Al ofrecer el sistema como software libre se debe entender que tales extensiones son bienvenidas y serán acompañadas. Con esto, confiamos asegurar el continuo desarrollo del proyecto, ya sea por universidades, instituciones o desarrolladores voluntarios. Se estima que en ese proceso continuo un equipo de desarrolladores pueda enfrentar dificultades mayores como la gestión precisa de entornos gráficos que incluyan manejo de eventos, notificaciones, ventanas emergentes e interrupciones.

anterior Inicio

Wiki

gpyvozcontrol / conclusion

Conclusión