Improvements in speech recognition for embedded devices by taking advantage of lip reading techniques

GUITARTE PEREZ JESUS FERNANDO

Improvements in speech recognition for embedded devices by taking advantage of lip reading techniques

GUITARTE PEREZ JESUS FERNANDO

Dirigida por:

Eduardo Lleida Solano Director/a

Universidad de defensa: Universidad de Zaragoza

Fecha de defensa: 26 de septiembre de 2006

Tribunal:

Climent Nadeu Camprubí Presidente/a
Alfonso Ortega Giménez Secretario/a
Alejandro Frangi Caregnato Vocal
Harald Höge Vocal
José Carlos Segura Luna Vocal

Tipo: Tesis

Teseo: 132724 DIALNET

Resumen

En la presente tesis doctoral la información visual contenida en el movimiento de los labios se ha utilizado para mejorar la robustez frente al ruido de sistemas de reconocimiento de voz en dispositivos con recursos limitados. El sistema aquí descrito reduce de forma significativa la tasa de error en niveles de ruido acústico elevado. Los algoritmos utilizados se caracterizan por su reducido consumo, tanto de tiempo de procesado como de memoria, permitiendo su uso en dispositivos integrados. Los principales aspectos a tomar en consideración en un sistema de lectura de labios son la localización y seguimiento de los labios, la extracción de la información visual y su integración con la información acústica. En el presente trabajo se proponen soluciones a estos tres problemas adecuadas al uso en dispositivos con recursos limitados. Se ha desarrollado un algoritmo para la localización y seguimiento de los labios. A partir de una clasificación por color, usando contornos horizontales y un modelo sencillo de la cara el algoritmo implementado proporciona la posición de la boca con un consumo muy bajo de recursos. Este algoritmo se ha implementado en un teléfono móvil procesando una tasa de 15 imágenes por segundo en tiempo real. Por otro lado para la extracción de la información visual se han estudiado dos tipos de algoritmos diferentes; uno basado en un modelado de la geometría labial y otro basado en una transformación matemática de los pixeles incluidos en la región de la boca. Se ha mostrado como en dispositivos con recursos limitados el segundo tipo proporciona mejores tasas de reconocimiento al no requerir la extracción precisa del contorno de los labios. Finalmente, se han estudiado tres técnicas para integrar la información acústica y visual, que se diferencian en la posición donde tiene lugar la integración en el proceso de reconocimiento: temprana, tardía e híbrida. Se ha constatado que la última proporciona los mejores resultados