Speed up strategies for the creation of multimodal and multilingual dialogue applications

  1. d'Haro Enríquez, Luis Fernando
Dirigida por:
  1. Ricardo De Córdoba Herralde Director/a

Universidad de defensa: Universidad Politécnica de Madrid

Fecha de defensa: 13 de mayo de 2009

Tribunal:
  1. José Manuel Pardo Muñoz Presidente/a
  2. Luis Alfonso Hernández Gómez Secretario/a
  3. Michael McTear Vocal
  4. Ramón López-Cózar Delgado Vocal
  5. Javier Macías Guarasa Vocal

Tipo: Tesis

Teseo: 200922 DIALNET

Resumen

ESPAÑOL: Hoy por hoy, la mayoría de los sistemas comerciales y de investigación de atención telefónica se realizan mediante el uso de sofisticadas y completas plataformas que permiten especificar todos los detalles relacionados con el diseño, ejecución, y depuración de tales servicios, Pese a todas las funcionalidades y utilidades incluidas para acelerar el diseño y permitir servicios avanzados a los usuarios, la mayoría de ellas proponen el mismo tipo de aceleraciones y presentan limitaciones al desarrollo simultáneo del servicio para múltiples modalidades y perfiles de usuario. En esta tesis se proponen diferentes estrategias de aceleración innovadoras, dinámicas e inteligentes que permiten predecir la información necesaria requerida para completar los diferentes aspectos del diseño, usando para ello información de la estructura del modelo de datos y del contenido de la base de datos del servicio, así como de la información acumulada a lo largo de todos los pasos ya realizados durante el diseño. Gracias a estas aceleraciones, la mayor parte del diseño del diálogo se reduce a confirmaciones por parte del diseñador de las ofertas que le hace la plataforma. En concreto, se propone la generación semi-automática de diversos tipos de propuestas que pueden ser utilizadas para completar el flujo de la aplicación, las acciones que componen cada diálogo, o para solucionar problemas específicos de cada modalidad tales como la confirmación de datos al usuario y la presentación de las listas de resultados devueltos después de hacer una consulta a la base de datos del servicio. Así mismo, se propone la creación de diferentes asistentes que permiten acelerar la creación de las gramáticas usadas por el sistema de reconocimiento y la definición de las funciones de acceso a la base de datos. Los resultados obtenidos en sendas evaluaciones objetiva y subjetiva han permitido demostrar la viabilidad, relevancia y funcionalidad de estas aceleraciones y de la plataforma presentada. Por otro parte, la amplia variedad de usuarios finales del servicio plantea diversos retos tales como la capacidad de identificar adecuadamente el idioma con el cual dirigirse a los usuarios, así como la posibilidad de proporcionar el servicio utilizando una u otra modalidad según las preferencias/necesidades de los usuarios o las condiciones actuales del diálogo. En relación con las mejoras aplicadas al módulo de reconocimiento de idioma se ha implementado una nueva técnica para la incorporación de información contextual de más largo alcance en los modelos de lenguaje utilizados por el sistema basada en un ranking de ngramas discriminativos. La técnica propuesta ha sido evaluada en la identificación de frases habladas en inglés y castellano obteniendo mejores tasas de reconocimiento que un sistema basado en PPRLM que usa modelos de lenguaje tradicionales gracias a la reducción del problema de falta de datos para el entrenamiento de los modelos de lenguaje de orden elevado lo que permite la utilización de modelos de mayor orden. Finalmente, se han incorporado diversas mejoras a un módulo de traducción automática de voz a lengua de signos que permite ampliar las capacidades multimodales de la plataforma al permitir la prestación del mismo servicio, desarrollado con la plataforma de diálogo, a personas con discapacidad auditiva, permitiendo la traducción de los prompts del sistema en una secuencia animada reproducida por un avatar. En esta tesis se propone una técnica de adaptación innovadora que permite mejorar la calidad de las frases traducidas en situaciones en las que no hay suficientes datos para entrenar adecuadamente el modelo de lenguaje usado por el sistema de traducción. La adaptación se realiza a nivel de cuentas, mediante la técnica de Maximum-A-Posteriori (MAP), usando las cuentas de los n-gramas originales en el idioma destino y las cuentas de ocurrencia de los n-gramas equivalentes en el idioma origen consultadas en la Web previamente y traducidas posteriormente a cuentas en el idioma destino usando un modelo de traducción basado en frases. ENGLISH: Nowadays, most of the commercial and research call center applications are created using sophisticated and complete development platforms that allow the specification of all the details related to the design, deploying, and debugging of such services. In spite of all the features and utilities included in them, most of them propose the same kind of accelerations and present limitations when designing simultaneously the same service for different modalities and kinds of users. In this thesis, we propose different innovative, dynamic, and intelligent acceleration strategies that allow the prediction of the information required to complete the different aspects of the design. In our proposal, the accelerations are based on using the data model structure and database contents, as well as cumulative information obtained from the previous and sequential steps in the design. Thanks to these accelerations, the design is reduced, most of the times, to simple confirmations from the designer to the proposals that the platform automatically provides. In detail, we propose the semi-automatic generation of different kinds of proposals that can be used to complete the application flow, the actions that make up each dialogue, or to solve specific modality problems such as user confirmations and the presentation of the lists of results retrieved after querying the backend database. Additionally, we propose the creation of different assistants that contribute to accelerate the process of creating speech grammars and the definition of the functions used to access the database. The results that we have obtained in objective and subjective evaluations have shown the viability, relevance, and functionality of the platform and the proposed accelerations presented in this thesis. On the other hand, the wide variability of the final users of the service raises different challenges such as the possibility of correctly identify the language to be used to interact with the users, as well as the possibility of providing the same service using different modalities according to the user preferences or needs or to the current conditions of the dialogue. In relation with the improvements applied to the language identification module, we have implemented a new technique based on using a discriminative ranking of n-grams that allow the incorporation of contextual longer-span information into the language models used by the system. The proposed technique has been evaluated in the identification of spoken sentences in English and Spanish obtaining better language recognition rates than a PPRLM based system, probably because the technique copes better with the classical problem of obtaining reliable estimates with a reduced training set, so we can use higher order language models. Finally, we have incorporated several improvements into an automatic speech-to-sign language machine translation system that extends the multimodal capabilities of the platform, so we can offer the same service, developed with the design platform, to deaf people. In this case, the translation system is used to automatically translate system prompts into an animated sequence played by a 3-D avatar. In this thesis, we propose an innovative adaptation technique that improves the quality of the translated sentences in situations when there is not enough training data to obtain reliable language models used by the translation system. The adaptation is done at the count level, using the Maximum A-Posteriori (MAP) technique. We use in this case the original occurrence counts of the n-grams that appear in the target language and the frequency counts of the equivalent n-grams in the source language retrieved from the Web and previously translated into counts in the target language using an independently trained phrase-base translation model.