Learning rules in data stream mining: Algorithms and applications

Ruiz Sánchez, Elena

Learning rules in data stream miningAlgorithms and applications

Ruiz Sánchez, Elena

Dirigida por:

Jorge Casillas Barranquero Director

Universidad de defensa: Universidad de Granada

Fecha de defensa: 07 de mayo de 2021

Tribunal:

Francisco Herrera Triguero Presidente
Jesús Alcalá Fernández Secretario
Alberto Cano Vocal
Shuo Wang Vocal
Pedro Gonzalez Garcia Vocal

Departamento:

CIENCIAS DE LA COMPUTACIÓN E INTELIGENCIA ARTIFICIAL

Tipo: Tesis

Teseo: 662560 DIALNET DIGIBUG editor

Resumen

En esta tesis, se propone un algoritmo completamente online basado en el aprendizaje de reglas para clasificación en flujos de datos, CLAST. El algoritmo aprende dinámicamente una población de reglas que conjuntamente representan la solución al problema. Las reglas son una forma legible de representación del conocimiento que representan relaciones entre variables y, en consecuencia, ofrecen la posibilidad de alcanzar un considerable nivel de detalle de interpretabilidad. Comparada con otros clasificadores de flujos de datos, la propuesta obtiene resultados muy competitivos en términos de precisión predictiva en los experimentos llevados a cabo. En problemas reales con tasas de llegada muy altas e inmensos volúmenes de datos suele ser difícil encontrar datos que estén completamente etiquetados y estructurados. Por lo tanto, exploramos otros paradigmas de aprendizaje, distintos al supervisado, que permitan evitar la dependencia de la disponibilidad a tiempo de las etiquetas. En esta línea, se realizan dos propuestas algorítmicas. La primera de ellas es Fuzzy-CSar-AFP; una propuesta de aprendizaje no supervisado para extracción directa de reglas de asociación en flujos de datos (association stream mining). Se trata de una propuesta online, que procesa los datos uno a uno en el momento de su llegada, y es capaz de construir y mantener directamente las reglas de asociación, sin necesidad de una etapa previa de identificación de itemsets frecuentes. La última de las propuestas, PAST, consiste en un método semi-supervisado que extiende los dos enfoques anteriores al combinar la capacidad de extraer conocimiento del etiquetado de los datos con la capacidad para aprender de datos no etiquetados. En términos de precisión predictiva, el método presenta un buen rendimiento en los experimentos realizados; mejorando los resultados obtenidos utilizando solo datos etiquetados. Esto significa que el algoritmo es capaz de extraer conocimiento de los datos no etiquetados que le permite mejorar su comprensión del problema. Adicionalmente, se estudia la viabilidad de la extracción de reglas de asociación en flujos de datos en dos aplicaciones reales. La primera de las aplicaciones se basa en datos sobre uso del smartphone, mientras que en el segundo casos se explotan flujos de tweets de contenido político. En ambos casos, el análisis de las reglas de asociación generadas resulta muy útil para comprender lo que va ocurriendo a lo largo del tiempo, aportándonos un conocimiento que será muy complicado obtener de otra manera.