Dealing with imbalanced and weakly labelled data in machine learning using fuzzy and rough set methods
- Vluymans, Sarah
- Chris Cornelis Director
- Yvan Saeys Co-director
Defence university: Universidad de Granada
Fecha de defensa: 18 July 2018
- Veerle Fack Chair
- Alberto Fernández Hilario Secretary
- Francisco Herrera Triguero Committee member
- Dominik Slezak Committee member
- Gert de Cooman Committee member
Type: Thesis
Abstract
Esta tesis se enfoca en el problema de la clasificación. El objetivo consiste en predecir las etiquetas de clase de determinados datos (es decir, asignarlos a una categoría), basándonos en un conjunto de datos, proporcionado previamente, que contiene observaciones conocidas. Tradicionalmente, se miden algunas características para todas las observaciones, de forma que estas últimas se pueden describir por un vector de características (recopilando los valores para todas las características) y por un resultado asociado, a condición de que esté disponible. Por ejemplo, en el conjunto de datos clásico iris, cada observación corresponde a una planta de iris y está descrita por los valores de sus cuatro características representando propiedades biológicas de la flor. La etiqueta de clase asociada es la familia específica de iris a la cual pertenece la muestra y la tarea de predicción consiste en asignar la planta a la familia correcta basándonos en los valores de sus características. Un algoritmo de clasificación efectúa esta tarea basándose en un conjunto de entrenamiento de instancias etiquetadas, es decir, un conjunto de flores de iris para las cuales se conocen tanto los valores de las características como las etiquetas de clase. Uno de los clasificadores más intuitivos es el algoritmo de vecinos más cercanos. Para clasificar un dato nuevo, este método localiza la instancia de entrenamiento más similar (el vecino más cercano) y lo asigna a la clase a la cual pertenece este vecino. Otros métodos construyen un modelo de clasificación explícito a partir del conjunto de entrenamiento, por ejemplo en forma de un árbol de decisión. Pocos conjuntos de datos reales son perfectos, es decir, normalmente no es posible hacer predicciones totalmente correctas basándose sólo en el conjunto de entrenamiento. Un problema típico es la incertidumbre presente en el conjunto de datos. Las matemáticas nos proporcionan marcos para modelar estas imperfecciones desde diferentes puntos de vista. La teoría de los conjuntos difusos extiende la teoría clásica de conjuntos al permitir una pertenencia parcial de elementos a un conjunto en forma de un grado de pertenencia entre cero y uno. De este modo, tanto los conceptos vagos como las relaciones graduales se pueden representar. Por otro lado, la incompletitud o indiscernibilidad es otro obstáculo común y se refiere a la situación donde las características medidas no son suficientes para llegar a una definición precisa o una delineación exacta de un concepto. La teoría de los conjuntos rugosos resuelve este problema aproximando el concepto con una aproximación inferior (conservativa) y otra superior (liberal). Ambos teorías se han combinado en la teoría de los conjuntos rugosos difusos. Se introduce una similitud gradual entre las observaciones y las aproximaciones inferior y superior de un concepto difuso se convierten en conjuntos difusos. Los conjuntos rugosos difusos se han empleado en varios algoritmos de aprendizaje automático, tanto en la fase de preprocesamiento como en la de aprendizaje. En el contexto de la clasificación, las aproximaciones difusas rugosas se construyen para las diferentes clases. En esta tesis, desarrollamos algoritmos de clasificación basados en conjuntos difusos rugosos para datos no balanceados y débilmente etiquetados, es decir, tipos de conjuntos de datos desafiantes que extienden el formato tradicional presentado previamente. Los Capítulos 1-2 forman la introducción a esta tesis. El primer capítulo describe los tipos de conjuntos de datos estudiados y proporciona las definiciones de las teorías de los conjuntos difusos, los conjuntos rugosos y los conjuntos difusos rugosos, junto con ejemplos intuitivos. El segundo capítulo introduce el área de la clasificación y trata la tarea de clasificación en general, repasando problemas concretos como el equilibrio entre sesgo y varianza (bias-variance tradeoff) y la maldición de la dimensión (curse of dimensionality). Una parte considerable del Capítulo 2 se dedica a la descripción de varios enfoques populares de clasificación, como son los de vecinos más cercanos, los de árboles de decisión y los de máquinas de soporte vectorial. Finalmente, explicamos cómo se realiza una evaluación experimental de algoritmos de clasificación de forma correcta. En el Capítulo 3, estudiamos el modelo basado en conjuntos difusos rugosos OWA, una generalización robusta de los conjuntos difusos rugosos tradicionales. Esta extensión tolerante al ruido utiliza las agregaciones OWA para calcular los grados de pertenencia de observaciones a las aproximaciones difusas rugosas inferior y superior. Una agregación OWA de un conjunto de valores se hace con un vector de pesos que ponderan la contribución de cada valor individual. El apodado ‘esquema de ponderación’ define estos vectores de pesos. Con el fin de preservar la intuición de las aproximaciones difusas rugosas inferior y superior, se utilizan en su definición vectores de pesos crecientes y decrecientes, respectivamente. Hasta la fecha, no existen pautas claras sobre qué esquema de ponderación se tendría que usar en los algoritmos de aprendizaje automático basados en operadores de aproximación difusa rugosa. Como nuestros experimentos demuestran que la preferencia entre uno u otro esquema de ponderación varía con el conjunto de datos, remediamos esta deficiencia en el Capítulo 3. Desarrollamos una estrategia de selección de esquema de ponderación OWA para las aproximaciones inferior y superior, basada en características del conjunto de datos fáciles de entender y sencillas de calcular, como son el tamaño global del conjunto o el número de clases. Al proporcionar estas pautas, eliminamos la necesidad de seleccionar manualmente un esquema de ponderación. Aparte de resolver este problema, nuestro estudio detallado también explica el comportamiento y las características internas de las aproximaciones difusas rugosas basadas en OWA. Las contribuciones de este capítulo mejoran la facilidad de uso y el entendimiento de este modelo difuso rugoso y lo convierten en una herramienta más accesible para su uso futuro en técnicas de aprendizaje automático. El Capítulo 4 aborda un primer reto en la clasificación de datos, a saber, la presencia de desbalance entre clases. La mayor parte de la investigación sobre datos no balanceados se ha realizado para conjuntos de datos con dos clases, donde una clase se llama la mayoritaria y la otra la minoritaria. Cuando el número de instancias en la primera supera el de la otra de forma considerable, los algoritmos de clasificación se pueden ver entorpecidos en su capacidad de hacer predicciones. En particular, tienden a predecir la clase mayoritaria con demasiada frecuencia y resultan muchas clasificaciones erróneas de instancias minoritarias. Para remediar este problema, se han desarrollado algoritmos especializados para abordar el desbalance de clases en el conjunto de entrenamiento tanto en la fase de preprocesamiento como en la fase de aprendizaje. En el Capítulo 4, seguimos la línea más reciente tomada por la comunidad investigadora y proponemos un algoritmo para conjuntos de datos no balanceados con múltiples clases, donde el número de clases es mayor que dos y la distribución de instancias de entrenamiento entre ellas está (severamente) sesgada. Nuestro clasificador se llama FROVOCO y está basado en el esquema de decomposición uno-contra-uno que divide el problema con múltiples clases en varias subtareas binarias, una para cada par de clases. Para clasificar una instancia de prueba, cada clasificador binario entrenado en una subtarea se ejecuta y calcula los grados de confianza con los que la instancia pertenece a ambas clases que el clasificador considera. Todos los valores están agrupados en una matriz de puntaje y después son agregados en una sola predicción de clase para la instancia considerada. Dentro de FROVOCO, utilizamos una versión adaptiva de IFROWANN, un clasificador basado en conjuntos difusos rugosos para datos binarios no balanceados. El aspecto adaptativo de la propuesta se sitúa en la elección dinámica de los pesos OWA dependiendo del desbalance de clases en el problema binario considerado. El segundo componente novedoso de FROVOCO es nuestro nuevo procedimiento de agregación llamado WV-FROST, que se utiliza para extraer una predicción de clases de la matriz de puntaje. Complementamos la información local contenida en la matriz de puntaje con una evaluación de clase global a través de un resumen de dos términos de afinidad basados en conjuntos difusos rugosos. Evaluamos nuestro método FROVOCO de forma extensiva en conjuntos de datos no balanceados con múltiples clases, validando nuestros dos componentes novedosos propuestos y demostrando la dominación de nuestro método completo sobre propuestas existentes. En el Capítulo 5, consideramos los datos semi-supervisados, un contexto donde la información de clase solo está disponible para una parte de las instancias de entrenamiento. Por consiguiente, el conjunto de entrenamiento contiene tanto instancias etiquetadas como no etiquetadas. Un algoritmo de clasificación entrenado en un conjunto de datos semi-supervisados puede (en principio) utilizar la información disponible tanto en las instancias etiquetadas como en las no etiquetadas. Este capítulo estudia la aplicación de nuestros clasificadores basados en conjuntos difusos rugosos del Capítulo 3 a datos de clasificación semi-supervisada. En particular, evaluamos si nuestros algoritmos se benefician de un paso de auto-etiquetado (self-labelling), donde la parte etiquetada del conjunto de entrenamiento se extiende generando predicciones de clases para una parte de las instancias no etiquetadas. Nuestro estudio experimental indica que (i) nuestros métodos tienen un buen desempeño a pesar de la característica semisupervisada de su conjunto de entrenamiento, (ii) que no se benefician de un paso previso de auto-etiquetado y por contra son capaces de extraer suficiente información de la cantidad limitada de instancias de entrenamiento etiquetadas y (iii) que constituyen una alternativa fuerte y computacionalmente más eficaz a los algoritmos de clasificación semi-supervisada que sí dependen de auto-etiquetado. El Capítulo 6 considera la clasificación de datos multinstancia, donde cada observación se representa por un grupo (una bolsa) de vectores de características. Las instancias individuales no tienen etiqueta de clase, sólo se conocen las etiquetas de las bolsas enteras. Un ejemplo de un área donde se utilizan los datos multinstancia es la clasificación de imágenes. Una observación (bolsa) corresponde a una imagen entera, que se puede dividir en varias zonas o segmentos (instancias). La tarea de predicción consiste en decidir qué escena completa representa la imagen. Se pueden tomar varios enfoques generales a la clasificación multinstancia, dependiendo si la información que discierne entre las clases se extrae al nivel de las instancias, al nivel de las bolsas o dentro de un espacio inducido de características que transforma bolsas enteras en vectores individuales de características. Proponemos dos marcos algorítmicos para la clasificación multinstancia basados en la teoría de los conjuntos difusos y en la teoría de los conjuntos difusos rugosos respectivamente. El primer marco consiste en clasificadores multinstancia generales, mientras que el segundo grupo de algoritmos se ha desarrollado específicamente para datos multinstancia con desbalance entre las clases. Ambos grupos se pueden dividir adicionalmente en dos familias de métodos: basados en instancias por un lado y en bolsas por otro lado. Por consecuencia, desarrollamos cuatro tipos de algoritmos: (i) métodos difusos basados en instancias, (ii) métodos difusos basados en bolsas, (iii) métodos difusos rugosos basados en instancias y (iv) métodos difusos rugosos basados en bolsas. El tipo define el flujo general de los cálculos y del procedimiento de predicción, pero proponemos distintas configuraciones posibles de los parámetros internos de nuestros métodos, es decir, distintas formas de hacer todos los cálculos. Presentamos una evaluación extensiva de las opciones para estos parámetros y explicamos por qué ciertas opciones son preferibles a otras. Basándonos en nuestras conclusiones, comparamos nuestros métodos propuestos con sus configuraciones óptimas a clasificadores multinstancia existentes tanto en datos balanceados y no balanceados y demostramos su excelente desempeño en general. Para los conjuntos de datos multinstancia con clases no balanceadas pudimos establecer la superioridad clara de nuestros métodos basados en conjuntos difusos rugosos sobre propuestas existentes. Consideramos otra extensión del formato tradicional de conjuntos de datos en el Capítulo 7, a saber, los datos con múltiples etiquetas. En conjuntos de datos con múltiples etiquetas, las observaciones pueden pertenecer a varias clases a la vez y la tarea de clasificación consiste en predecir el conjunto de etiquetas entero para una instancia de prueba en lugar de una sola etiqueta de clase. Una posibilidad de hacerlo adopta un enfoque de vecinos más cercanos, donde la predicción del conjunto de etiquetas se obtiene en base a la información de clase en la vecindad de la instancia de prueba, es decir, agregando los conjuntos de etiquetas de los elementos de entrenamiento cercanos de una manera específica. Proponemos un método nuevo para este último paso. Nuestro algoritmo FRONEC utiliza los conjuntos difusos rugosos basados en OWA para establecer una predicción de consenso apropiada de los conjuntos de etiquetas encontrados en la vecindad de la instancia a clasificar. En una evaluación experimental en conjuntos de datos sintéticos y reales, demostramos que nuestra propuesta FRONEC es altamente competitiva con respecto a los clasificadores existentes para datos con múltiples etiquetas basados en vecinos más cercanos y a menudo los supera. Finalmente, el Capítulo 8 concluye la tesis resumiendo nuestras propuestas, resultados y conclusiones, e indicando varias direcciones posibles de investigación futura.