Introducción

Las tecnologías de información se han convertido en una herramienta clave para la integración y comunicación de las personas. El computador es ahora una herramienta habitual de trabajo. Se usa para llevar la agenda, como elemento de ocio, acceso a internet, pagar servicios básicos, entre otros y esto no excluye a las personas con alguna discapacidad. Por este motivo, se visualiza a las tecnologías como herramientas que habiliten el acceso a la información y a mecanismos de aprendizaje para estas personas, de tal forma que con ciertas ayudas tecnológicas puedan incorporarse a estos procesos de aprendizaje en condiciones de igualdad. En este punto nos encontramos con 2 aspectos de esa realidad. Por un lado, muy pocos desarrolladores o arquitectos de software incorporan en sus sistemas y aplicaciones alguna plataforma de accesibilidad que las personas con alguna discapacidad puedan usar libremente. Por el otro lado se tiene el alto costo de las licencias privativas de algunas aplicaciones con este tipo de ayudas tecnológicas.

Es importante resaltar que cuando se hace referencia a "libre", no quiere decir que es "gratis", sino que los fuentes puedan estar disponibles para su revisión, distribución, uso y modificación, así puedan ser adaptados de acuerdo a cada circunstancia. Esto las hace particularmente valiosas para atender discapacidades específicas y en lugares de mundo con menos recursos tecnológicos.

Entre las mejores alternativas para una persona que no puede utilizar el teclado o el ratón, se cuenta el reconocimiento de voz. El hardware y los programas han venido evolucionando en los últimos tiempos, sobre todo en los telefonos celulares de nueva generación, permitiendo al usuario realizar tareas como búsquedas en internet, llamar a un contacto, escribir un mensaje y abrir o ejecutar programas. En el software libre, existen algunos motores de reconocimiento de voz, que permiten desarrollar programas de este tipo. Entre los motores de software libre mas conocidos está Julius que es un sistema de reconocimiento preciso en tiempo real, de alta velocidad, basado en la estrategia de doble paso (consiste en un árbol de busqueda hacia adelante en tiempo sincrónico y una busqueda hacia atrás en tiempo asíncrono). Este algoritmo incorpora las principales técnicas de decodificación que incluyen léxico organizado como árbol, aproximación del contexto por primer mejor par de palabras, podado por rankeo, factorización de N-grama, manejo de dependencias de contexto por cruce de palabras, búsqueda enfocada, podado gausiano, selección gausiana, entre otros. Otro motor que promete es CMUSphinx de la Universidad Carnegie Mellon, un conjunto de herramientas con algoritmos de última generación para el reconocimiento eficaz del habla, las herramientas están diseñadas específicamente para plataformas de bajos recursos, tiene un diseño flexible para centrarse en el desarrollo de la aplicación práctica y no en la investigación, soporte para varios idiomas como el Inglés de EE.UU. y Reino Unido, francés, mandarín, alemán, holandés, ruso y capacidad de construir un modelo para los demás idiomas, posee una amplia gama de herramientas para múltiples propósitos relacionados con el reconocimiento de voz.

Estas aplicaciones de reconocimiento de voz permiten al usuario cierta independencia de la interacción con el teclado y el ratón. Si resaltamos el hecho de que con bastante frecuencia se desconocen los problemas de accesibilidad, entendiendo esta como el grado en que una persona con sus capacidades puede utilizar un objeto, visitar un sitio o acceder a un servicio, estamos ante un gran problema que se le presenta a las personas con discapacidad para utilizar un computador. El reconocimiento de voz puede ofrecer una alternativa para aliviar ese gran problema. Una alternativa que, además no beneficia únicamente a un perfil de discapacidad particular, sino que puede ayudar a muchas personas que encuentren difícil, en cualquier medida, usar el ratón o el teclado para usar un computador.

Por este motivo, en este proyecto se desarrolló, bajo tecnologías libres, un software o sistema que permite a una persona interactuar con el sistema operativo y su interfaz gráfica mediante órdenes de voz (como: abrir, cerrar, maximizar o minimizar ventana, entre otros) con las aplicaciones instaladas. El sistema, al que se ha denominado "gpyvozcontrol", también permite manejar los programas como el Evince (visualizador de PDF) y el reproductor de música (Rhythmbox). Estas son algunas de las características que se han alcanzado en el proyecto, pero teniendo presente que la finalidad superior es continuar con el desarrollo del sistema de órdenes de voz que permita a cualquier persona en un futuro realizar todas las tareas del sistema solo con la voz y a través del oído.

Inicio Siguiente

Wiki

gpyvozcontrol / intro

Introducción