Retos en clasificación ordinal: redes neuronales artificiales y métodos basados en proyecciones

Sánchez Monedero, Javier

Retos en clasificación ordinalredes neuronales artificiales y métodos basados en proyecciones

Sánchez Monedero, Javier

unter der Leitung von:

César Hervás Martínez Doktorvater/Doktormutter
Pedro Antonio Gutiérrez Peña Co-Doktorvater

Universität der Verteidigung: Universidad de Granada

Fecha de defensa: 04 von September von 2013

Gericht:

Óscar Cordón García Präsident
María del Carmen Pegalajar Jiménez Sekretärin
Rafael Medina Carnicer Vocal
José Muñoz Pérez Vocal
Xin Yao Vocal

Art: Dissertation

Teseo: 347518 DIALNET DIGIBUG editor

Zusammenfassung

El aprendizaje automático (machine learning) es una de las ramas de investigación más populares de la inteligencia artificial. El objetivo es desarrollar de manera automática modelos que aprendan de una serie de datos y proporcionen una respuesta sin intervención humana. Las aplicaciones del aprendizaje automático abarcan áreas como robótica, microbiología, biomedicina, agronomía, epidemiología o economía, entre otras muchas. En estos campos, es muy importante la tarea de predecir el valor de una variable de respuesta que puede ser de dos o de múltiples categorías (problemas de clasificación nominal, como, por ejemplo, clasificar terrenos como libres o infestados por malas hierbas para realizar una fumigación selectiva), o también problemas donde la variable toma valores continuos en la recta real (problemas de regresión, como, por ejemplo, la predicción de la velocidad del viento con el fin de diseñar parques eólicos de la mejor forma posible). Cuando existe una relación de orden entre las categorías de la variable de respuesta, el problema se denomina "clasificación ordinal". La clasificación ordinal (también conocida como regresión ordinal) es un tipo de problema de reconocimiento de patrones que se encuentra situado entre la clasificación nominal y la regresión. De la primera se diferencia en que existe un orden preestablecido entre las clases mientras que de la regresión se distingue en que el conjunto de etiquetas es finito y las diferencias entre los valores de las etiquetas no están definidas. La clasificación ordinal tiene aplicación en multitud de áreas como la evaluación de la enseñanza, evaluación de seguros de coches, producción de pasto, tratamiento de cáncer de mama, predicción de la velocidad del viento o evaluación del crédito. A pesar de sus múltiples aplicaciones, la clasificación ordinal ha recibido poca atención en la comunidad de aprendizaje automático en comparación con los problemas de clasificación nominal. Sin embargo, el número de trabajos relacionados con ésta está aumentando en los últimos años a nivel internacional. La clasificación ordinal presenta diferentes retos que están abiertos a día de hoy: - Revisión del estado del arte en regresión ordinal. En comparación con la clasificación nominal, la regresión ordinal es un campo del aprendizaje automático que ha sido relativamente poco estudiado y explorado. Sin embargo, existen trabajos y publicaciones en la bibliografía que motivan un análisis de los mismos. Especialmente, parece necesario proponer una taxonomía de métodos de regresión ordinal, así como realizar una recopilación de las principales métricas de rendimiento. Estas dos cuestiones ayudarán a contextualizar las propuestas de esta tesis. - Considerando el evidente carácter multiclase y la naturaleza de algunos problemas, las bases de datos ordinales presentan un alto grado de desbalanceo entre las clases (algunas clases tienen muy pocos patrones en comparación con otras), lo que puede provocar que algunos clasificadores ignoren a las clases con un número significativamente menor de patrones, convirtiéndolos en clasificadores triviales para las clases mayoritarias. - Explotación de la relación de orden de las clases. Varios autores definen a los clasificadores ordinales y sus algoritmos de entrenamiento como a) métodos que optimizan la clasificación de acuerdo a métricas que consideren el orden y magnitud de los errores y b) métodos que explotan el conocimiento a priori de la disposición ordenada de los patrones en el espacio de entrada. No obstante, el segundo aspecto no suele contemplarse de manera explícita en la formulación de los clasificadores. Esta tesis trabaja objetivos enunciados en torno a los anteriores retos, aunque se centrará en los dos últimos objetivos, siendo el primero necesario pero no el eje fundamental de la tesis, y el segundo un problema no exclusivo de la clasificación ordinal. El resultado de este trabajo está avalado por las publicaciones en conferencias y revistas internacionales asociadas.