Ecualización de histogramas en el procesado robusto de voz

  1. GARCÍA MARTÍNEZ, LUZ
Zuzendaria:
  1. José Carlos Segura Luna Zuzendaria

Defentsa unibertsitatea: Universidad de Granada

Fecha de defensa: 2007(e)ko abendua-(a)k 21

Epaimahaia:
  1. Antonio José Rubio Ayuso Presidentea
  2. M. Carmen Benítez Ortuzar Idazkaria
  3. Luis Alfonso Hernández Gómez Kidea
  4. Eduardo Lleida Solano Kidea
  5. Fernando Díaz de María Kidea
Saila:
  1. ELECTRÓNICA Y TECNOLOGÍA DE COMPUTADORES

Mota: Tesia

Laburpena

Esta tesis se centra en una técnica de robustecimiento de las características cepstrales MFCC usadas en el reconocimiento automático del habla: la Ecualización de Histogramas, HEQ. La Ecualización de Histogramas es una transformación no lineal que se aplica al vector de características cepstrales en el front-end del reconocedor automático del habla. Su objetivo es transformar dichas características a un dominio (dominio ecualizado) invariante ante las distorsiones que el ruido provoca en la distribución de densidad de probabilidad. HEQ se puede situar dentro de un grupo de técnicas de robustecimiento del reconocimiento automático del habla, definidas como técnicas de encuadre estadístico cuya filosofía es normalizar parámetros estadísticos de las características (ya sea la media, la varianza, algunos momentos de orden superior o la función de densidad de probabilidad) para eliminar la distorsión provocada por el ruido. En sus orígenes, HEQ era una técnica de procesado de imágenes, pero su bajo coste computacional, la simplicidad de su planteamiento que no necesita modelos del ruido que se combate, así como la versatilidad de sus aplicaciones (debida también al hecho de no presuponer ninguna característica sobre las distorsiones que elimina), hicieron atractiva su aplicación en el procesado de la señal acústica que se ha llevado a cabo en los últimos seis años. El trabajo realizado en la tesis analiza las prestaciones y peculiaridades de HEQ y sus limitaciones como técnica de robustecimiento. Estas limitaciones se deben fundamentalmente al hecho de que la calidad del encuadre estadístico depende en gran medida de la obtención de unas estadísticas fiables de la frase que se ecualiza. Cuando las frases son cortas, se producen dos efectos no deseables: la fiabiliad de las estadísticas disminuye y el porcentaje de voz y silencio que tenga la frase pasa a ser un factor influyente en la transformación distorsionando con ello la info