Nuevas aproximaciones al reconocimiento automático del habla mediante grafos de palabras y técnicas de aprendizaje no supervisado

GÓMEZ ADRIÁN, JON ANDER

Nuevas aproximaciones al reconocimiento automático del habla mediante grafos de palabras y técnicas de aprendizaje no supervisado

GÓMEZ ADRIÁN, JON ANDER

Dirigida por:

Emilio Sanchís Arnal Director/a
María José Castro Bleda Codirector/a

Universidad de defensa: Universitat Politècnica de València

Fecha de defensa: 01 de junio de 2004

Tribunal:

Antonio José Rubio Ayuso Presidente
Isabel Galiano Ronda Secretario/a
Ferrán Pla Vocal
Eduardo Lleida Solano Vocal
Pablo Aibar Vocal

Tipo: Tesis

Teseo: 105697 DIALNET

Resumen

El habla es uno de los medios más naturales para el intercambio de información entre humanos. Esto ha despertado un crecimiento interés en construir máquinas que puedan aceptar la señal vocal como entrada y actuar en función de la información transmitida. La cantidad de aplicaciones en las que utilizar máquinas que fueran capaces de entender la voz humana es considerable. El propósito de un sistema de reconocimiento del habla continua es proporcionar un mecanismo eficiente y preciso para transcribir la señal vocal a texto. Empezando por el nivel más bajo, para el reconocimiento del habla mediante computadoras debemos asignar una unidad lingüística a cada trozo de señal vocal, y a partir de ahí combinar dichas unidades para formar palabras, frases, acciones, instrucciones, etc. En la mayoría de los sistemas estas unidades son los fonemas, los sonidos básicos de una lengua. Para pasar de las unidades básicas a las frases pronunciadas un sistma de reconocimiento del habla ha de combinar distintas fuentes de conocimiento: acústico, fonético, léxico y sintáctico. Si además, quiere ampliarse a comprensión del habla ha de aplicar conocimiento semántico. La aproximación estándar, ampliamente utilizada en nuestros días y que aporta mejores resultados, integra todas las fuentes de conocimiento en una sola etapa de reconocimiento. El trabajo presentado en esta tesis propone un sistema de Reconocimiento Automático del Habla desacoplado donde las distintas fuentes de conocimiento intervienen de manera secuencial. Frente a un único módulo nuestro sistema se compone de varios módulos dispuestos en serie. Cada módulo trabaja a un nivel de conocimiento diferente, desde el acústico-fonético hasta el semántico pasando por el léxico y el sintáctico. Uno de los puntos más importantes y delicados ha sido el diseño de las interfaces entre módulos, donde debía prevalecer un objetivo: transferir únic