Recursos y herramientas lingüísticos para los sistemas de búsquedas de respuestas monolingües y multilingües

  1. Gutiérrez Artacho, Juncal
Dirigida por:
  1. María-Dolores Olvera-Lobo Directora
  2. Bryan Robinson Codirector

Universidad de defensa: Universidad de Granada

Fecha de defensa: 18 de junio de 2015

Tribunal:
  1. María Isabel Tercedor Sánchez Presidenta
  2. Clara Inés López-Rodríguez Secretaria
  3. Miguel Angel Jiménez Crespo Vocal
  4. Elena Corera Alvarez Vocal
  5. Ricardo Muñoz Martín Vocal
Departamento:
  1. INFORMACIÓN Y COMUNICACIÓN

Tipo: Tesis

Resumen

En el entorno de la Web la sobrecarga de información se deja sentir aún más que en otros contextos. De esta forma, en demasiadas ocasiones, al plantear una determinada consulta en las herramientas de búsqueda de información web (buscadores, directorios o metabuscadores) el número de páginas web recuperadas resulta excesivo y no todas ellas son relevantes ni útiles para los objetivos del usuario. Los sistemas de búsqueda de respuestas (o SBR) se presentan como una alternativa a los tradicionales sistemas de Recuperación de Información (o RI) tratando de ofrecer respuestas precisas y comprensibles a preguntas factuales, en lugar de mostrar al usuario una lista de documentos relacionados con su búsqueda (Jackson y Schilder, 2005). El funcionamiento de los SBR se basa en los modelos de respuestas cortas (Blair-Goldensohn et al., 2004), y la ventaja principal que ofrece al usuario es que éste no ha de consultar documentos completos para obtener la información requerida puesto que el sistema ofrece la respuesta correcta en forma de un número, un sustantivo, una frase corta o un fragmento breve de texto (Pérez-Coutiño et al., 2004). Dentro de los tipos de SBR el presente trabajo centra parte de su estudio al análisis y evaluación de los SBR multilingües y translingües. Estos sistemas necesitan la incorporación de algún tipo de recurso lingüístico, herramienta o técnica de traducción para la correcta recuperación del resultado, ya que el SBR puede extraer la respuesta de una colección de documentos escritos en una lengua distinta a la que se plantea la pregunta. Puesto que la búsqueda de respuestas monolingüe y multilingüe se presenta como un avance destacado en la mejora de la RI (Kolomiyets y Moens, 2011) se hace necesario determinar su eficacia para el usuario final. Con este objetivo se han realizado ocho estudios donde se evalúa: a) en los dos primeros los recursos y herramientas lingüísticos utilizados por estos sistemas para la recuperación multilingüe o translingüe (artículo 1; artículo 2); b) el rendimiento y la calidad de las respuestas de los principales SBR monolingües y multilingües de dominio general y dominio especializado disponibles en la Web (QuALiM, SEMOTE, START, TrueKnowledge y HONqa) ante preguntas de diversos tipos (de definición, factuales y de lista) y temas (Arte y Literatura, Biología, Medicina, Personajes, Historia, Economía o Deportes, entre otros), para lo que se aplican diferentes medidas de evaluación (artículo 3, artículo 4, artículo 5, artículo 6, artículo 7); y finalmente, c) la satisfacción y las necesidades de los usuarios finales sobre los SBR multilingües como recurso terminológico. Todos los estudios presentados en la presente tesis doctoral han sido evaluados y aceptados por la comunidad científica, estando disponibles en las principales revistas y editoriales internacionales con revisión por pares. A continuación se detalla el análisis realizado en cada uno de los trabajos presentados: 1ª Publicación: LANGUAGE RESOURCES USED IN MULTI-LINGUAL QUESTION ANSWERING SYSTEMS Propósito de este artículo: En el campo de la RI, algunas herramientas multilingües se han creado para ayudar a los usuarios a superar las barreras lingüísticas. Aunque, estas herramientas no están desarrolladas completamente y es necesario investigar más en su mejora y aplicación. Uno de los principales problemas que presentan es la elección de un correcto recurso lingüístico que ofrezca una mejor cobertura y solucione los problemas de traducción en el contexto de la RI translingüe. Diseño: La investigación se centra en el análisis de los recursos utilizados por los SBR multilingües, que responden a las preguntas de los usuarios con respuestas cortas, en lugar de ofrecerles una lista de documentos relacionados con la búsqueda. Se ha realizado un análisis de las principales publicaciones sobre los SBR multilingües con el objetivo de identificar la tipología, las ventajas y desventajas, y el uso real y tendencia de cada uno de los recursos y herramientas lingüísticos usados en este nuevo tipo de sistemas. Resultados: Se han identificado y estudiado cinco de los recursos más usados en los SBR multilingües: base de datos, diccionarios, corpus, ontologías y tesauros. Los tres recursos más populares tradicionalmente (traductores automáticos, diccionarios, y corpus) han ido gradualmente dejando un espacio abierto a otros, como las ontologías y la enciclopedia online Wikipedia. ¿Qué aporta este artículo?: La perspectiva ofrecida por las técnicas de traducción puede mejorar la efectividad de los SBR. 2ª Publicación: LANGUAGE RESOURCES IN MULTI-LINGUAL QUESTION ANSWERING SYSTEMS En el campo de la RI, las herramientas monolingües, multilingües y translingües se han creado para que puedan ayudar a los especialistas en sus tareas; así como ayudar al resto de usuarios a encontrar una variedad amplia de información. Las herramientas translingües van evolucionando aunque todavía es necesario varios años de estudio e investigación para mejorar sus funcionalidades. Una de las principales dificultades a las que se enfrentan es la tarea de la traducción de las preguntas planteadas (Diekema, 2003). Dado la actual expansión en investigación, desarrollo y creación de sistemas de RI multilingüe o translingüe, también denominados CLIR por sus siglas en inglés, se ha considerado como esencial el analizar y evaluar los recursos usados por un tipo de estos sistemas, los SBR multilingües. Como objetivo general se ha analizado e introducido las técnicas de traducción en el estudio de los SBR multilingües. El segundo objetivo ha sido identificar y analizar los principales tipos de recursos y herramientas lingüísticos utilizados en los procesos de CLIR asociados a los SBR translingües, y determinar cuál es el uso real que hacen estos sistemas de los mismos. 3º Publicación: QUESTION ANSWERING TRACK EVALUATION IN TREC, CLEF AND NTCIR Los SBR se presentan como una alternativa real a los sistemas de RI (SRI), ya que permiten al usuario obtener una respuesta rápida y comprensible a sus necesidades de información. Hace ya 15 años desde que el foro especializado en RI, TREC, introdujo la primera sección o track dedicada exclusivamente a la búsqueda de información. En las principales conferencias en evaluación de RI se han creado tracks específicas centradas en el desarrollo y evaluación de este tipo de sistemas. El presente estudio realiza una breve revisión de los foros TREC, CLEF y NTCIR desde la perspectiva de la búsqueda de respuestas. Para ello, se presenta un resumen del panorama histórico de los 15 años en las tracks sobre evaluación en búsqueda de respuestas mediante el método de revisión sistemática. Hemos identificado los diferentes tasks o labs específicos creados en cada QA track, el tipo de preguntas de evaluación utilizadas, así como las medidas de evaluación utilizadas en las diferentes competiciones analizadas. Los resultados reflejan que es CLEF el foro que ha aplicado una variedad más amplia de tipos de preguntas de evaluación (factuales, de definición, de lista, causales, sí/no, entre otras). NTCR, celebrada en 13 ocasiones, es el foro en el que se han usado un mayor número de medidas de evaluación diferentes. Las medidas tradicionales de exactitud, precisión y exhaustividad siguen siendo las tres medidas más usadas en las tres competiciones. 4ª Publicación: QUESTION-ANSWERING SYSTEMS AS EFFICIENT SOURCE OF TERMINOLOGICAL INFORMATION: EVALUATION Los SBR se presentan como una nueva alternativa a los SRI. La mayoría de los usuarios a menudo necesitan recuperar información específica a preguntas factuales en lugar de documentos completos. Hemos realizado un estudio para evaluar la eficiencia de los SBR como fuentes terminológicas para médicos, traductores especializados y usuarios en general. Con este fin se ha analizado el funcionamiento de un SBR de dominio abierto, START, y uno de dominio especializado, MedQA. El estudio se ha realizado con una colección de doscientas preguntas de definición (What is¿?), tanto especializadas como generales, del sitio web WebMed. Se ha estudiado las fuentes que los SBR usan para recuperar las respuestas, y tras ello se ha aplicado una serie de medidas de evaluación para comprobar la calidad de las respuestas. Ambos sistemas han demostrado ser apropiados para la recuperación de terminología al proporcionar fuentes fiables y respuestas correctas. 5ª Publicación: OPEN- VS. RESTRICTED-DOMAIN QA SYSTEMS IN THE BIOMEDICAL FIELD Los SBR se presentan como una alternativa a los sistemas tradicionales de RI tratando de ofrecer respuestas precisas a preguntas factuales. Se ha realizado un estudio para evaluar la eficiencia de estos sistemas como fuentes terminológicas para los especialistas y para usuarios en general. Con este fin, se ha evaluado el funcionamiento de cuatro SBR, dos especializados en el dominio biomédico (MedQA y HONqa) y dos de dominio general (START y QuALiM). El estudio ha utilizado una colección de 150 preguntas biomédicas definicionales (What is¿?), obtenidas del sitio web médico WebMD. Para determinar el funcionamiento, se han evaluado las respuestas ofrecidas utilizando una serie de medidas específicas (precisión, MRR, TRR, FHS). El estudio permite confirmar que los cuatro sistemas son útiles para la recuperación de información definicional en este ámbito, ya que han proporcionado respuestas coherentes y precisas con un grado de aceptabilidad adecuado. 6ª Publicación: EVALUACIÓN DEL RENDIMIENTO DE LOS SISTEMAS DE BÚSQUEDA DE RESPUESTAS DE DOMINIO GENERAL Los SBR son una alternativa a los tradicionales sistemas de RI tratando de ofrecer respuestas precisas y comprensibles a preguntas factuales, en lugar de presentar al usuario una lista de documentos relacionados con su búsqueda. Se ha evaluado la eficacia de cuatro SBR disponibles en la Web ¿QuaLiM, SEMOTE, START, y TrueKnowledge¿, mediante una amplia muestra de preguntas de definición, factuales y de lista, pertenecientes a distintos dominios temáticos. Se utilizó una colección de 500 preguntas cuyas respuestas fueron valoradas por los usuarios y, posteriormente, se aplicaron varias medidas para su evaluación (MRR, TRR, FHS, MAP y precisión). Se observa que START y TrueKnowledge presentan un nivel aceptable de respuestas correctas, precisas y en una secuencia bien ordenada. Los resultados obtenidos revelan el potencial de esta clase de herramientas en el ámbito del acceso y la RI de dominio general. 7ª Publicación: MULTILINGUAL QUESTION-ANSWERING SYSTEM IN BIOMEDICAL DOMAIN ON THE WEB: AN EVALUATION Los SBR son una alternativa a los tradicionales sistemas de RI tratando de ofrecer respuestas precisas y comprensibles a preguntas factuales. El presente estudio evalua la efectividad de estos sistemas como fuentes terminológicas para especialistas, así como para los usuarios en general, en el contexto de las búsquedas multilingües en un dominio restringido. Con este objetivo, se han analizado los resultados obtenidos por el SBR multilingüe de dominio restringido HONqa, disponible en la Web. En el estudio se utilizo un conjunto de 120 preguntas biomédicas de definición (What is¿?), obtenidas del sitio web médico WebMD, en donde se pueden formular en inglés, francés e italiano. Las respuestas se han analizado aplicando una serie de medidas específicas (MRR, TRR, FHS, precisión, exhaustividad, MAP). También han sido analizadas las fuentes usadas para obtener las respuestas. El estudio confirma que para todas las lenguas en las que se analizó el funcionamiento de la efectividad es necesario mejorar, aunque en este contexto multilingüe las preguntas en lengua inglesa obtuvieron mejores resultados en la recuperación de información definicional que en francés y en italiano. Uno de los motivos se puede deber a que las fuentes de información de las que se extraen las respuestas son más numerosas en inglés y tienen una estructura más apropiada para este propósito que en las otras lenguas estudiadas. 8ª Publicación: SATISFACCIÓN DE USUARIOS DEL ÁMBITO DE LA TRADUCCIÓN EN EL USO DE SISTEMAS DE BÚSQUEDA MULTILINGÜE DE RESPUESTAS COMO RECURSO DE INFORMACIÓN TERMINOLÓGICA Con el rápido crecimiento de Internet y el desarrollo de las nuevas tecnologías en los últimos años, los SBR se han convertido en una alternativa a los tradicionales sistemas de RI. Aunque existe una prolífera producción sobre estos sistemas, pocos son los trabajos que se han desarrollado en la evaluación centrada en el usuario. El presente trabajo se centra exclusivamente en la evaluación de los SBR multilingües ya que permite al usuario acceder a información terminológica no disponible en su lengua, y en la evaluación centrada en el usuario para entender las necesidades del usuario e identificar las dimensiones y factores en el desarrollo de un sistema de información con el fin de mejorar su aceptación. El objetivo es conocer el grado de satisfacción del usuario para el SBR multilingüe HONqa (inglés, francés e italiano) utilizando la herramienta de los investigadores Ong y colegas. (2009) basado en un examen de modelos y teorías. Para ello, se ha analizado el grado de satisfacción de los profesionales de la traducción como recurso de información terminológica. Un total de 122 especialistas en inglés, francés o italiano ha utilizado y evaluado el recurso terminológico desde la perspectiva de la traducción. Tras el análisis de los resultados obtenidos respecto al SBR HONqa, los cuales han permitido evaluar la satisfacción de los estudiantes de Traducción, se ha comprobado que el sistema les resulta a los usuarios-alumnos fácil y útil para la recuperación de información terminológica en todos los idiomas.