Arquitectura de depuración de información. Caso práctico sobre datos en lengua castellana

  1. Márquez Cid, Mirari
Supervised by:
  1. Carmen Navarro Sánchez Director
  2. Javier Rodeiro Iglesias Director

Defence university: Universidade de Vigo

Fecha de defensa: 05 June 2008

Committee:
  1. José Samos Jiménez Chair
  2. Florentino Fernández Riverola Secretary
  3. Víctor Muñoz Garzón Committee member
  4. Carmen M. Redondo Committee member
  5. Antonino Santos-del-Riego Committee member

Type: Thesis

Teseo: 206484 DIALNET

Abstract

En este trabajo se presenta una arquitectura de depuración de datos denominada UVDuplicate, Esta combina las ventajas de una arquitectura distribuida con un conjunto de módulos que permiten cubrir todo el proceso de depuración de datos. La flexibilidad de UVDuplicate es una de sus mayores ventajas. Además, su característica de modular hace que sea fácil incluir nuevos módulos adaptados a las necesidades de cada usuario sin que esto implique grandes cambios en el conjunto de la aplicación. UVDuplicate es la primera herramienta que consigue cubrir todas las fases del proceso de depuración de datos en lengua castellana y, además, lo hace de forma eficaz y eficiente. La arquitectura desarrollada con su diseño modular permite intercomunicar sistemas UVDuplicate para que puedan ejecutar tareas y compartir información en entornos de red. Esto ha sido conseguido, a través de la abstracción y modularidad planteada como base de UVDuplicate, la construcción de un sistema en el que cada uno de sus componentes se encuentra desplegado en distintos nodos de una red. En este trabajo se ha seguido una aproximación de eliminación de ruido en los datos mediante reglas. Las reglas se han implementando mediante funciones propias de cada sistema de almacenamiento y poseen baterías de excepciones. Ademñas, se ha optado por depurar la mayor cantidad de datos posibles sin que esto signifique pérdida de información. Los resultados obtenidos justifican la hipótesis inicial de que una fase previa de eliminación de ruído es fundamental para que el resto de procesos dentro de la depuración de los datos maximicen su eficacia. La bibliografía sobre este tema hace referencia principalmente a dos formas de realizar normalización, una basada en reglas y otra basada en Modelos Ocultos de Markov (HMMs); en esta tesis se implementan las dos formas de manera complementaria. Se ha desarrollado una batería de reglas para transformar los datos de entrada en formas normales. Se han incluido diccionarios de nombres, apellidos y direcciones para etiquetar cada elemento de entrada con el fin de llevarlo a un campo de salida correcto. Se ha implementado métodos de entrenamiento de los HMMs dirigidos por el usuario a partir de ficheros con datos de entrada etiquetados. Los resultados demuestran que la normalización de las variables, sobre todo aquellas que forman parte de los clústeres o de los cruces, es imprescindible para conseguir una alta eficacia en el proceso de eliminación de duplicados y cruce de datos. En cuanto al enlace de registros y búsqueda de duplicados, se ha desarrollado un módulo capaz de cruzar dos conjuntos de datos de forma determinista o de forma probabilística. Se implementan técnicas de clustering, atendiendo al orden alfabético de las variables utilizadas para hacer clústeres, para reducir el espectro de comparaciones, incluye 14 métodos de comparación de cadenas, uno de ellos ha sido reimplementado para, sin perder eficacia, maximizar su eficiencia.