Nuevas aproximaciones al reconocimiento automático del habla mediante grafos de palabras y técnicas de aprendizaje no supervisado

  1. GÓMEZ ADRIÁN, JON ANDER
Supervised by:
  1. Emilio Sanchís Arnal Director
  2. María José Castro Bleda Co-director

Defence university: Universitat Politècnica de València

Fecha de defensa: 01 June 2004

Committee:
  1. Antonio José Rubio Ayuso Chair
  2. Isabel Galiano Ronda Secretary
  3. Ferrán Pla Committee member
  4. Eduardo Lleida Solano Committee member
  5. Pablo Aibar Committee member

Type: Thesis

Teseo: 105697 DIALNET

Abstract

El habla es uno de los medios más naturales para el intercambio de información entre humanos. Esto ha despertado un crecimiento interés en construir máquinas que puedan aceptar la señal vocal como entrada y actuar en función de la información transmitida. La cantidad de aplicaciones en las que utilizar máquinas que fueran capaces de entender la voz humana es considerable. El propósito de un sistema de reconocimiento del habla continua es proporcionar un mecanismo eficiente y preciso para transcribir la señal vocal a texto. Empezando por el nivel más bajo, para el reconocimiento del habla mediante computadoras debemos asignar una unidad lingüística a cada trozo de señal vocal, y a partir de ahí combinar dichas unidades para formar palabras, frases, acciones, instrucciones, etc. En la mayoría de los sistemas estas unidades son los fonemas, los sonidos básicos de una lengua. Para pasar de las unidades básicas a las frases pronunciadas un sistma de reconocimiento del habla ha de combinar distintas fuentes de conocimiento: acústico, fonético, léxico y sintáctico. Si además, quiere ampliarse a comprensión del habla ha de aplicar conocimiento semántico. La aproximación estándar, ampliamente utilizada en nuestros días y que aporta mejores resultados, integra todas las fuentes de conocimiento en una sola etapa de reconocimiento. El trabajo presentado en esta tesis propone un sistema de Reconocimiento Automático del Habla desacoplado donde las distintas fuentes de conocimiento intervienen de manera secuencial. Frente a un único módulo nuestro sistema se compone de varios módulos dispuestos en serie. Cada módulo trabaja a un nivel de conocimiento diferente, desde el acústico-fonético hasta el semántico pasando por el léxico y el sintáctico. Uno de los puntos más importantes y delicados ha sido el diseño de las interfaces entre módulos, donde debía prevalecer un objetivo: transferir únic