Desarrollo de sistemas de diálogo oral adaptativos y portablesReconocimiento de emociones, adaptación al idioma y evaluación de campo
- Ramón López-Cózar Delgado Director
Defence university: Universidad de Granada
Fecha de defensa: 02 July 2008
- Xavier Alamán Roldán Chair
- José Parets Llorca Secretary
- Manuel Palomar Sanz Committee member
- Michael F, McTear Committee member
- Emilio Sanchís Arnal Committee member
Type: Thesis
Abstract
La presente tesis doctoral describe el trabajo realizado en tres de las líneas más exigentes y prometedoras del área de los sistemas de diálogo oral: el reconocimiento de emociones no actuadas, la adaptación de reconocedores del habla entre idiomas y la evaluación de campo (no restringida a laboratorio) de sistemas, empleando criterios tanto "objetivos" como "subjetivos". La investigación descrita en la tesis constituye una aportación novedosa a lo que los expertos han definido como los mayores retos de investigación del área: la adaptatividad y portabilidad de los sistemas de diálogo oral. En primer lugar, en cuanto al reconocimiento de emociones, se presenta un estudio detallado acerca de cómo calcular e interpretar coeficientes de fiabilidad para la anotación de corpus con emociones reales. Se propone una nueva aproximación eficiente que mejora considerablemente el reconocimiento de las emociones, tanto por parte del sistema como respecto a los niveles de acuerdo entre los anotadores humanos, mediante el uso de diferentes fuentes de información contextuales. Por una parte, el proceso de anotación se mejora consiguiendo valores de acuerdo entre anotadores cercanos al máximo alcanzable incluso tratándose de anotadores no expertos. Por otra, se propone un algoritmo para el reconocimiento de emociones que extrae automáticamente la información contextual en tiempo de ejecución, obteniéndose resultados que suponen una mejora del 40% en comparación con el estado del arte. En segundo lugar, la adaptación de reconocedores del habla a diferentes lenguas se ha realizado durante una estancia de tres meses en la Technical University of Liberec (República Checa). Como resultado de esta investigación, se presenta una aproximación eficiente en tiempo y esfuerzo para adaptar un reconocedor del habla a otros idiomas. En concreto un reconocedor del habla checa a un idioma que es acústicamente muy similar (eslovaco) y a otro con un origen completamente diferente (español). La precisión obtenida en el reconocimiento es de aproximadamente el 70% para el español y del 80% para el eslovaco en tareas que precisan grandes vocabularios (alrededor de 150.000 palabras). En tercer lugar, se han llevado a cabo diversos estudios estadísticos sobre la evaluación de campo de los sistemas de diálogo oral, proporcionando nuevas evidencias empíricas sobre las relaciones entre los diferentes criterios de evaluación. El estudio incluye tanto parámetros objetivos como subjetivos, prestando especial atención a la satisfacción del usuario y al éxito de la tarea, estudiando el impacto de diferentes aproximaciones para la gestión del diálogo y del nivel de experiencia del usuario empleando el sistema, así como el nivel de colaboración de los usuarios durante la interacción. Todas las propuestas de la tesis se han evaluado con sistemas de diálogo reales. Para cumplir esta finalidad se desarrolló el sistema de diálogo oral UAH. El sistema se puso a disposición del público (via telefónica) en junio de 2005, habiéndose grabado la totalidad de diálogos con el sistema. Se han anotado las llamadas recibidas durante un año utilizando criterios de evaluación estándares (por ejemplo la tasa de errores por palabra). Este corpus se ha ampliado con la anotación de emociones por parte de nueve anotadores no expertos, que etiquetaron cada intervención de los usuarios como "neutro", "enfado", "duda" o "aburrimiento". Tanto los métodos de reconocimiento de emociones como los estudios de evaluación propuestos en la tesis se han evaluado en la práctica empleando el corpus UAH. Con respecto a la adaptación entre idiomas, su evaluación se llevó a cabo utilizando el sistema MyVoice, desarrollado por la Technical University of Liberec. La traducción de sus comandos para posibilitar la interacción en español es otra de las contribuciones de la tesis. Los resultados empíricos obtenidos con los sistemas de diálogo se han verificado rigurosamente, midiéndose su significatividad mediante diferentes estudios estadísticos. Los resultados de la investigación descrita se han publicado en conferencias y revistas de prestigio, tanto nacionales como internacionales; habiéndose presentado además mediante diversas ponencias, pósteres y demostraciones internacionales.