Ecualización de histogramas en el procesado robusto de voz

  1. GARCÍA MARTÍNEZ, LUZ
Dirigida por:
  1. José Carlos Segura Luna Director

Universidad de defensa: Universidad de Granada

Fecha de defensa: 21 de diciembre de 2007

Tribunal:
  1. Antonio José Rubio Ayuso Presidente
  2. M. Carmen Benítez Ortuzar Secretaria
  3. Luis Alfonso Hernández Gómez Vocal
  4. Eduardo Lleida Solano Vocal
  5. Fernando Díaz de María Vocal
Departamento:
  1. ELECTRÓNICA Y TECNOLOGÍA DE COMPUTADORES

Tipo: Tesis

Resumen

Esta tesis se centra en una técnica de robustecimiento de las características cepstrales MFCC usadas en el reconocimiento automático del habla: la Ecualización de Histogramas, HEQ. La Ecualización de Histogramas es una transformación no lineal que se aplica al vector de características cepstrales en el front-end del reconocedor automático del habla. Su objetivo es transformar dichas características a un dominio (dominio ecualizado) invariante ante las distorsiones que el ruido provoca en la distribución de densidad de probabilidad. HEQ se puede situar dentro de un grupo de técnicas de robustecimiento del reconocimiento automático del habla, definidas como técnicas de encuadre estadístico cuya filosofía es normalizar parámetros estadísticos de las características (ya sea la media, la varianza, algunos momentos de orden superior o la función de densidad de probabilidad) para eliminar la distorsión provocada por el ruido. En sus orígenes, HEQ era una técnica de procesado de imágenes, pero su bajo coste computacional, la simplicidad de su planteamiento que no necesita modelos del ruido que se combate, así como la versatilidad de sus aplicaciones (debida también al hecho de no presuponer ninguna característica sobre las distorsiones que elimina), hicieron atractiva su aplicación en el procesado de la señal acústica que se ha llevado a cabo en los últimos seis años. El trabajo realizado en la tesis analiza las prestaciones y peculiaridades de HEQ y sus limitaciones como técnica de robustecimiento. Estas limitaciones se deben fundamentalmente al hecho de que la calidad del encuadre estadístico depende en gran medida de la obtención de unas estadísticas fiables de la frase que se ecualiza. Cuando las frases son cortas, se producen dos efectos no deseables: la fiabiliad de las estadísticas disminuye y el porcentaje de voz y silencio que tenga la frase pasa a ser un factor influyente en la transformación distorsionando con ello la info