Flersa: un sistema semántico de gestión de contenido web (s-cms)

  1. Navarro Galindo, José Luis
Supervised by:
  1. José Samos Jiménez Director

Defence university: Universidad de Granada

Fecha de defensa: 06 July 2012

Committee:
  1. José Parets Llorca Chair
  2. María Visitación Hurtado Torres Secretary
  3. Lina Guadalupe García Cabrera Committee member
  4. Rafael Berlanga Committee member
  5. Manuel Torres Gil Committee member
Department:
  1. LENGUAJES Y SISTEMAS INFORMÁTICOS

Type: Thesis

Abstract

En este trabajo, se presenta FLERSA (FLExible Range Semantic Annotation) como una herramienta de anotación semántica de contenido Web centrada en el usuario. La herramienta ha sido desarrollada a partir de un WCMS (Web Content Management System) y su principal objetivo es convertir la infraestructura específica de los WCMS en su equivalente semántico, extendiendo así los beneFÍcios de la Web Semántica. Los principios y técnicas de FLERSA pueden aplicarse a cualquier WCMS. La herramienta permite anotaciones semánticas manuales y automáticas, así como funciones de búsqueda mejoradas. Las anotaciones se basan en la ontología FLERSA-ontology, se trata de una "ontología base" inspirada en el marco de trabajo Annotea, cuyo propósito principal es dar soporte para la definición de anotaciones que se usan a modo de infraestructura; se pueden definir anotaciones adicionales a partir de ellas, usando conceptos y propiedades de otras ontologías. Para la anotación semántica manual, se ha usado una nueva técnica de marcado de rangos flexibles, basada en el estándar RDFa, con la ventaja de que soporta la evolución de los documentos web que se anotan semánticamente más efectivamente que otras técnicas como pueden ser XPointer. Para la anotación semántica automática, se ha usado un enfoque híbrido basado en técnicas de aprendizaje automático tales como el Modelo de Espacio Vectorial y N-gramas, para determinar los conceptos que se tratan en el contenido de un documento web. Los conceptos se organizan en torno a una taxonomía proporcionada por una ontología. La técnica de aprendizaje automático se basa en anotaciones previas que se usan a modo de Corpus. En cuanto a las funciones de búsqueda mejoradas, comentar que el objetivo de la herramienta es explotar la información semántica de las anotaciones para conseguir resultados "inteligentes" en respuesta a las consultas. Se realiza un doble almacenamiento de las anotaciones: en el servidor, en formato RDF, e incrustadas dentro del documento web donde se realizan, en formato RDFa, de forma totalmente transparente a los usuarios. Esta característica combina las ventajas del almacenamiento centralizado de anotaciones con aquellas del modelo incrustado como son: - Permite inferir nuevo conocimiento a partir de la base de datos de anotaciones. - Disponibilidad de las anotaciones semánticas autocontenidas dentro del documento. - Acceso libre a los metadatos para motores de búsqueda web y otros tipos de servicios web, con objeto de mejorar las búsquedas. - Proporciona información de la estructura interna de los documentos y de relaciones entre ellos. Cabe destacar, que tanto el uso de ontologías como elemento de representación de conocimiento consensuado, así como las tecnologías emergentes recomendadas por la W3C, tales como XML, RDF, RDFa y OWL, han estado siempre presentes y han jugado un papel central durante todo el proceso de diseño e implementación de la herramienta FLERSA. El resultado de todo el trabajo realizado se materializa en una extensión de Joomla. Se ha desarrollado un componente llamado com_semantic que está disponible libremente desde la URL http://salmer.sourceforge.net. Se ha publicado bajo licencia Affero GNU/GPL v3 y proporciona la implementaci ón del sistema de anotación semántica que se describe en el presente trabajo.