Dataset shift in classification: terminology, benchmarks and methods

Garcia Moreno-Torres, Jose

Dataset shift in classificationterminology, benchmarks and methods

Garcia Moreno-Torres, Jose

Dirigida por:

Francisco Herrera Triguero Director

Universidad de defensa: Universidad de Granada

Fecha de defensa: 12 de marzo de 2013

Tribunal:

Luciano Sánchez Ramos Presidente/a
Óscar Cordón García Secretario
Nicolás García-Pedrajas Vocal
J. S. Sanchez Vocal
Jaume Bacardit Peñarroya Vocal

Departamento:

CIENCIAS DE LA COMPUTACIÓN E INTELIGENCIA ARTIFICIAL

Tipo: Tesis

Teseo: 336817 DIALNET DIGIBUG editor

Resumen

Este trabajo se centra en problemas de Clasificacion con una unica variable objetivo y con conjuntos de entrenamiento y prueba estáticos. Por estáticos queremos decir que son completamente conocidos en un momento dado, en contraste con problemas de series temporales en los que los datos están disponibles paso a paso. Una suposicion sobre la que el estudio de este tipo de problemas de Clasificacion se ha basado tipicamente es la de que la distribucion P(y,x) es la misma tanto para los datos de entrenamiento como de prueba. Bajo esta suposicion, un modelo construido con los datos de entrenamiento y que se ajusta a ellos perfectamente deberia predecir las etiquetas de los datos de prueba muy acertadamente. Sin embargo, hay situaciones, que se dan con frecuencia en aplicaciones reales, en las que la suposicion previa no se cumple. Esta cuestion ha sido llamada "Fractura de Datos" (Dataset shift), y es el principal objeto de estudio de este trabajo. El fenomeno ha sido estudiado en profundidad en analisis de series temporales, pero es relativamente nuevo para Clasificacion, con la mayoria de los trabajos relevantes publicados en los ultimos 5-10 años. La Fractura de Datos se puede considerar un problema de calidad de los datos, y esta por tanto relacionado con ruido, valores perdidos, analisis de complejidad de datos o no balanceo. Sin embargo, se diferencia de ellos en que no es observable solo a partir de los datos de entrenamiento, sino que se define como un problema entre los datos de entrenamiento y los de aplicacion. Por esta razon, las propuestas para analizar y resolver la Fractura de Datos generalmente no se centran en la fase de preprocesamiento, sino en la adaptacion del modelo construido. En este sentido, hay una relacion cercana entre los campos de Fractura de Datos y de Transferencia de Aprendizaje. En esta tesis, presentamos la investigacion realizada en Fractura de Datos en Clasificacion. Comenzamos proponiendo un estandar para la unificacion de la terminologia asociada al problema, ya que era habitual en la dispersa literatura encontrar el mismo concepto definido con distintos terminos, o distintos conceptos asociados al mismo termino. Seguidamente creamos una serie de conjuntos de datos de referencia para que sirvan de base para la realizacin de comparaciones justas entre el comportamiento de las diversas propuestas de la literatura, y despues presentamos nuestra propia alternativa. Finalmente, estudiamos como interactua la Fractura de Datos con otros factores en Clasificacion como el no balanceo o la validacion cruzada con k-subgrupos.