Representación y tratamiento semántico de información imprecisa en bases de datos

Campaña Gómez, Jesús Roque

Representación y tratamiento semántico de información imprecisa en bases de datos

Campaña Gómez, Jesús Roque

unter der Leitung von:

María Amparo Vila Miranda Doktormutter
Juan Miguel Medina Rodríguez Doktorvater

Universität der Verteidigung: Universidad de Granada

Fecha de defensa: 07 von Juli von 2011

Gericht:

Olga Pons Capote Präsidentin
María José Martín Bautista Sekretärin
José Galindo Gómez Vocal
Maarten van Someren Vocal
Rodrigo Martínez Béjar Vocal

Fachbereiche:

ESTADÍSTICA E INVESTIGACIÓN OPERATIVA

Art: Dissertation

Teseo: 311649 DIALNET DIGIBUG editor

Zusammenfassung

El objetivo de este trabajo de investigación es profundizar en el estudio de un conjunto de técnicas que permitan obtener la semántica de la información en un entorno de base de datos, y que faciliten el acceso y manipulación de dicha información por parte de un usuario. Abordaremos el problema de la gestión de la semántica en bases de datos desde el punto de vista estructural y de contenido. Para la gestión de la semántica a nivel estructural, proponemos el uso de ontologías como herramientas para el diseño conceptual del esquema de almacenamiento de las instancias de la ontología. Además la propia ontología debe ser almacenada en la base de datos para tener acceso a la semántica de las estructuras. De este modo tendremos varios componentes diferenciados, por una parte, el esquema creado a partir de la ontología, donde se almacenan las instancias de la ontología, y por otra parte, la propia ontología almacenada. Es necesario aportar información adicional para poder identificar las partes del esquema que se corresponden con las de la ontología. Con toda la información almacenada podríamos realizar tareas básicas de razonamiento como la subsunción de clases. Adicionalmente realizamos el tratamiento de la semántica inherente a las instancias. Por lo general las instancias van a estar compuestas por atributos de tipo numérico y de texto. El tratamiento semántico de los atributos numéricos lo realizaremos por medio de la consulta flexible. En cuanto al tratamiento de los campos textuales, realizaremos el procesamiento de las columnas con atributos textuales y extraeremos la semántica de éstas, de tal forma que el usuario pueda acceder a dicha información y hacerse una idea sobre el contenido del campo de texto en cuestión. Para poder extraer semántica del texto necesitamos procesarlo. No toda la información que aparezca en el texto será relevante por lo que debemos usar criterios para extraer los rasgos comunes a los textos de la columna, en definitiva, realizar una representación del dominio del contenido de la columna. Para poder realizar este resumen utilizaremos técnicas de minería de datos y texto, con el objetivo de crear una representación del texto que pueda ser extendida con semántica obtenida de fuentes externas. Proponemos una metodología general a seguir para el procesamiento semántico de textos. Esta metodología se puede aplicar usando diferentes herramientas. Una vez aplicada la metodología obtendremos una representación semántica del dominio del problema en forma de ontología. Esta ontología es un resumen del dominio del problema, y además aportará términos de búsqueda adicionales para las consultas de usuario, por cada uno de los conceptos identificados. El proceso de extensión de las estructuras de representación de textos a ontologías se puede realizar utilizando diversas fuentes de conocimiento externas. En nuestro caso analizaremos la viabilidad del proceso utilizando WordNet y Wikipedia. Las ontologías con las que vamos a trabajar las representaremos mediante OWL, un estándar de la Web Semántica.