Mantenimiento incremental de reglas de asociación y sus extensiones mediante bases de datos activas

  1. Pérez Alonso, Alain
Zuzendaria:
  1. José Maria Serrano Chica Zuzendaria
  2. Ignacio Blanco Medina Zuzendaria

Defentsa unibertsitatea: Universidad de Granada

Fecha de defensa: 2016(e)ko abendua-(a)k 02

Epaimahaia:
  1. María Amparo Vila Miranda Presidentea
  2. Daniel Sánchez Fernández Idazkaria
  3. Carlos D. Barranco Kidea
  4. Alberto José Bugarín Diz Kidea
  5. María José del Jesús Díaz Kidea
Saila:
  1. CIENCIAS DE LA COMPUTACIÓN E INTELIGENCIA ARTIFICIAL

Mota: Tesia

Laburpena

Resumen: El desarrollo sin precedentes en las tecnologías de la información ha provocado que el volumen de datos existente en los repositorios de todo el mundo haya alcanzado niveles extraordinarios y un ritmo de crecimiento vertiginoso. Esto supone una fuente de riqueza que es necesario comprender y convertir en información valiosa. En este sentido, juega un importante rol la extracción de conocimiento en bases de datos donde la minería de reglas de asociación es uno de los métodos para abordar el proceso no trivial de identificación de patrones en los datos. A partir de las reglas de asociación se pueden identificar otras representaciones del conocimiento que son semánticamente significativas para el usuario. Una de ellas es la imprecisión o incertidumbre que puede acompañar a la información mediante el diseño de las reglas de asociación difusas. Otra son las dependencias aproximadas, las cuales pueden ser vistas como excepciones a reglas que se cuantifican mediante las reglas de asociación. Independientemente del tipo de conocimiento extraído, su valor es relativo al momento en que se ejecutó el algoritmo. Sin embargo, los datos por naturaleza se encuentran en constante cambio. Este hecho invariablemente conduce a la modificación del conocimiento previamente extraído, convirtiéndolo de esta forma en inexacto y eventualmente, obsoleto. La presente investigación se centra en desarrollar nuevos métodos para mantener incrementalmente, ante los cambios ocurridos en los datos, las reglas de asociación, reglas de asociación difusas y dependencias aproximadas previamente extraídas. En este sentido se tuvieron en cuenta los recursos activos ofrecidos por las bases de datos. Específicamente hemos marcado los siguientes objetivos: - Realizar un estudio del estado del arte en el descubrimiento y mantenimiento de las reglas de asociación, reglas de asociación difusas y dependencias aproximadas. - Analizar los vínculos existentes entre el mantenimiento incremental en bases de datos activas y el mantenimiento incremental de las reglas abordadas. - Proponer nuevos algoritmos para el mantenimiento incremental de reglas de asociación, reglas de asociación difusas y dependencias aproximadas que integren distintas medidas de interés. - Implementar una herramienta de software para el mantenimiento incremental de reglas en bases de datos activas. Como primera contribución de la presente memoria se obtuvieron dos propuestas para el mantenimiento incremental de reglas previamente descubiertas, mediante recursos activos de las bases de datos. Una de ellas está enfocada en el mantenimiento inmediato de las reglas, donde inmediatamente después de ocurrido el cambio en el dato, se actualiza el conocimiento. La otra se enfoca en el mantenimiento diferido de las reglas, donde se actualiza el conocimiento luego de varias modificaciones ocurridas en los datos. Ambos algoritmos mantienen directamente las medidas mediante un conjunto de partes diferentes. Esto posibilita mantener eficientemente varias medidas de forma simultánea, lo cual es un aspecto favorable ante la gran variedad de métricas existentes. Las propuestas realizadas fueron evaluadas mediante un estudio experimental. Este estudio realiza un análisis del desempeño y la escalabilidad de los algoritmos utilizando diferentes conjuntos de datos de entornos reales. Como segunda contribución se creó una herramienta para el mantenimiento incremental de reglas mediante bases de datos activas (DRIMS). Esta herramienta escrita en Java es capaz de gestionar los tipos de reglas estudiados mediante una base de reglas, brindando para ello la opción de crear nuevas reglas a través de asistentes. Las reglas existentes en la base de reglas pueden ser mantenidas incrementalmente en sistemas reales. DRIMS implementa los algoritmos inmediato y diferido en dos de los sistemas gestores de bases de datos bajo código abierto más utilizados: PostgreSQL y MySQL. Con la investigación realizada en esta memoria se desarrollaron y evaluaron nuevos algoritmos para el mantenimiento incremental de reglas de asociación, reglas de asociación difusas y dependencias aproximadas. Estos algoritmos mostraron buenos resultados en su desempeño y superaron técnicas convencionales e incrementales para el mantenimiento de reglas previamente descubiertas. La implementación de ambas propuestas puede ser realizada mediante DRIMS, herramienta que permitirá llevar a la práctica los resultados teóricos obtenidos y aplicar las propuestas de mantenimiento incremental en bases de datos activas reales.