Metodologías basadas en minería de datos para el diseño y optimización de técnicas de clasificación automática

  1. Martínez España, Raquel
Dirigida por:
  1. José Manuel Cadenas Figueredo Director/a
  2. María del Carmen Garrido Carrera Director/a

Universidad de defensa: Universidad de Murcia

Fecha de defensa: 19 de diciembre de 2014

Tribunal:
  1. José Luis Verdegay Galdeano Presidente
  2. Jose M. Juarez Secretario/a
  3. Jesús Alcalá Fernández Vocal
  4. Roque Luis Marín Morales Vocal
  5. Jesús Dario Landa Silva Vocal

Tipo: Tesis

Resumen

La motivación para el desarrollo de esta tesis doctoral se centra en la problemática de la escasez de técnicas de Análisis Inteligente de Datos que trabajen de forma directa con datos imperfectos. Esto ha estado provocado debido al avance de las nuevas tecnologías las cuales han permitido el almacenamiento de grandes volúmenes de información compuestos de diferentes tipos de datos no siempre tan precisos y perfectos como sería deseable. El objetivo global, y por tanto, los objetivos parciales, se encuentran centrados en el desarrollo de técnicas del Análisis Inteligente de Datos que hagan uso de las metodologías que ofrece el Softcomputing para trabajar con datos imperfectos (datos de baja calidad) de forma directa, sin necesidad de una transformación previa. Específicamente, la tesis se centra en las fases de Preprocesamiento de Datos y de Minería de Datos del Análisis Inteligente de Datos. Por una parte, en la fase de Minería de Datos, se proponen las extensiones de tres técnicas. Concretamente, un árbol de decisión fuzzy, un ensamble de árboles de decisión fuzzy y una técnica basada en vecindad. Para la extensión del árbol de decisión fuzzy y del ensamble se ha definido una medida de similitud para calcular el grado de pertenencia de un valor de baja calidad a cada uno de los descendientes de un nodo N dado. Para la extensión de la técnica basada en vecindad (regla k-NN) se ha definido una serie de medidas distancia para calcular la distancia entre los ejemplos y sus vecinos teniendo presente que estos pueden contener datos de baja calidad. Por otra parte, en la fase de Preprocesamiento se propone el diseño e implementación de un conjunto de técnicas que soporten datos de baja calidad. Concretamente, las técnicas presentadas abarcan los procesos de discretización de atributos numéricos, la selección de atributos, la selección de ejemplos y la imputación de valores missing. En la discretización de atributos se ha diseñado una técnica híbrida compuesta por un árbol de decisión fuzzy y un algoritmo genético. La técnica de selección de atributos propuesta es un algoritmo híbrido compuesto por una técnica de filtrado y una técnica wrapper. Por otro lado la técnica de imputación se basa en el diseño de una nueva regla para la técnica de K-NN y para el proceso de selección de ejemplos se ha utilizado la idea básica de una técnica de condensación de ejemplos, con el fin de seleccionar los más representativos. Además se ha desarrollado una herramienta software que recoge parte de las técnicas de preprocesamiento de datos propuestas y desarrolladas a lo largo de la tesis. El objetivo de esta herramienta software, llamada "NIP imperfection processor" (NIPip), es proporcionar un marco de trabajo común donde los investigadores puedan llevar a cabo un preprocesamiento sobre conjuntos de datos bien para añadirles datos de baja calidad o bien para transformar dicho datos de baja calidad en otros tipos de datos. Como conclusión final debemos comentar que las técnicas propuestas y extendidas, y tras realizar un conjunto de experimentos validados estadísticamente, han mostrado un comportamiento robusto, estable, muy satisfactorio y optimista tanto cuando trabajan con datos de baja calidad como datos crisp. Además la herramienta software propuesta aporta un nuevo marco de trabajo, y una mayor flexibilidad y rapidez a la hora de preprocesar datos tanto de baja calidad como crisp, lo cual es muy importante para el diseño de experimentos a gran escala. The motivation for the development of this doctoral thesis is focused on the problem of the shortage of techniques of Intelligent Data Analysis, working directly with imperfect data. This has been caused by the advance of new technologies which have allowed the storage of large volumes of information of different types composed of data that are not always as precise and perfect as desired. The global aims, and therefore partial objectives, are focused on the development of techniques of Intelligent Data Analysis making use of methodologies provided by Softcomputing to work directly with imperfect data (low quality), without a need for previous transformation. Specifically, the thesis is focused on the Intelligent Data Analysis phases of data preprocessing and data mining. On the one hand, in the phase of data mining, the extensions of three techniques have been proposed. Specifically, a fuzzy decision tree, an ensemble of fuzzy decision trees and a technique based on neighborhood. For the extension of the fuzzy decision tree and the ensemble techniques a similarity measure has been defined. This measure is used to calculate the membership degree of a low quality value to each of the descendants of a given node N. For the extension of the technique based on neighborhood (k-NN rule) a set of distance measures to calculate the distance between the examples and their neighbors has been defined, bearing in mind that the examples may contain low quality data. On the other hand, the design and implementation of a set of techniques, that support low quality data, is proposed in the preprocessing phase. In particular, the techniques presented include the processes of discretization of numerical attributes, of attribute selection, of example selection and of missing value imputation. In the discretization of attributes, a hybrid technique has been designed. This technique is composed of a fuzzy decision tree and a genetic algorithm. The attribute selection technique proposed consists of a hybrid algorithm composed of a filtering technique and a wrapper technique. In addition, the imputation technique is based on the design of a new rule for the technique K-NN. For the process of example selection, the basic idea of a condensation technique of examples has been used, in order to select the most representative examples. Also, a software tool has been developed. This tool includes part of the data preprocessing techniques proposed and developed in this doctoral thesis. The aim of this software tool, called "NIP imperfection processor" (NIPip) is to provide a common framework where researchers can perform preprocessing on datasets either to add low quality data to them or to transform this low quality data into other types of data. As a final conclusion, it must be emphasized that the proposed and extended techniques, after performing a set of statistically validated experiments, have shown robust, stable, very satisfactory and optimistic behavior both when working with low quality data and when working with crisp data. Also, the software tool proposed provides a new framework, and greater flexibility and speed in the data preprocessing both low quality and crisp, which is very important for the design of large-scale experiments.