Poli representación de consultas borrosas para la extracción masiva de documentos en internet

  1. Ruiz Morilla, José Joaquin
Dirigida por:
  1. Jesús Serrano Guerrero Director/a

Universidad de defensa: Universidad de Castilla-La Mancha

Fecha de defensa: 05 de febrero de 2016

Tribunal:
  1. Enrique Herrera Viedma Presidente
  2. José Ángel Olivas Varela Secretario/a
  3. Antonio Grabriel López Herrera Vocal

Tipo: Tesis

Resumen

Los sistemas de recuperación de información comenzaron accediendo a pequeñas fuentes de información, pero actualmente este concepto ha evolucionado considerablemente con la aparición de Internet. Hoy en día, una gran cantidad de la información en Internet es accesible mediante diversas herramientas como buscadores (Yahoo, Google, …), aunque hay parte de esta información que no es accesible para las herramientas comentadas. Otra de las desventajas para acceder a estas grandes masas de información es la falta de contenido estructurado, lo que supone un lastre para dichos sistemas de recuperación de información. Otras herramientas como son los meta-buscadores acceden a diferentes fuentes de información o motores de búsqueda a la vez, para obtener información que por ellos misma carece. Por ello, tienen más cobertura que los buscadores tradicionales, aunque aparecen otros problemas y/o retos derivados de ello como la problemática de trabajar con resultados obtenidos de distintas fuentes de información o el tratamiento de la consulta de usuario, que puede ser totalmente distinta en cada fuente de información o recurso. Dichos meta-buscadores se pueden conectar a conocidos buscadores gracias a sus APIs (Application Programming Interfaces) para acceder a sus resultados, pero éstas presentan diversas limitaciones. Una de las principales es la limitación del número de términos que puede formar una consulta. Por otro lado, la expansión de consultas es una estrategia que selecciona nuevos términos de distintas fuentes y los añade a la consulta normalmente. ¿Pero cómo realizar la expansión de consultas con la limitación impuesta por los buscadores comentada anteriormente? Esta tesis presenta una propuesta alternativa a la expansión de consultas: un sistema de polirepresentación de consultas. Estas estrategias permiten crear muchas consultas con pocos términos en vez de una consulta con muchos términos como estrategia tradicional. El escenario sobre el cual se trabaja en esta tesis consiste la combinación de un metabuscador llamado BUDI y la conocida ontología UMLS, mediante el uso de los cuales se demostrará que bajo determinadas condiciones, las técnicas de polirepresentación de consultas siguiendo la propuesta de esta tesis consiguen mejores resultados que otras técnicas de expansión de consultas.