Técnicas no paramétricas y semiparamétricas en bases de datos procedentes de estudios multicéntricosbúsqueda de perfiles clínicos en bases de datos de estudios multicéntricos con distintas patologías mediante diferentes técnicas multivariantes
- Boukichou Abdelkader, N.
- Alberto Muñoz García Codirector/a
- Miguel Ángel Montero Alonso Codirector
Universidad de defensa: Universidad de Granada
Fecha de defensa: 19 de julio de 2022
- Javier Martínez Moguerza Presidente/a
- Juan de Dios Luna del Castillo Secretario
- Sonia Castillo-Gutiérrez Vocal
Tipo: Tesis
Resumen
En la actualidad, el gran avance tecnológico y la transformación digital originada con el Big Data y la Inteligencia Artificial (IA), están desarrollando diversos cambios de gestión y de decisión en todos los ámbitos profesionales, concretamente en el campo de la salud y en la minería de datos, y así mismo en la sociedad en general, que de alguna manera hay que agradecer a estas transformaciones, puesto que todo este proceso implica una nueva era de novedosos métodos y algoritmos menos robustos y más eficaces, capaces de ser perfeccionados para dar diferentes vías de solución a cualquier objetivo planteado. En paralelo, estos nuevos mecanismos están experimentando cambios en el área de la estadística computacional que en tiempos pasados eran impensables por los costes tan inmensos que eso podría suponer y los procedimientos de cálculos tan arduos que eso implicaba. Por eso, estos desarrollos tan diversos en los diferentes campos de la informática y en especial para las áreas de investigación y ciencias de datos están generando técnicas más sofisticadas y adaptables para los distintos casos que se pueden encontrar en la población de interés, en especial en el ámbito sanitario, creando mejores modelos y resultados de calidad con el fin de ayudar en la toma de decisiones, y por consiguiente, proponer mejores procedimientos de diagnósticos y de tratamientos, adaptados al individuo para intentar paliar las posibles secuelas con la finalidad de mejorar la calidad de vida en el mayor tiempo posible, cambiando los hábitos saludables mal adquiridos y fortaleciendo los nuevos que se intentan alcanzar o se desean modificar a los que ya existían en nuestras vidas. En esta investigación nuestro objetivo ha sido el de explorar las diversas técnicas no paramétricas existentes para la búsqueda de perfiles clínicos subsanando en paralelo la problemática de la maldición de la dimensionalidad y el hándicap de los valores faltantes (missing values), mediante algoritmos supervisados y no supervisados con las capacidades ofrecidas para su aplicación práctica desde software estadístico R, con el fin de poder dar una vía rápida al objetivo principal de este estudio, que es la búsqueda de perfiles clínicos en base de datos multicéntricas con diferentes patologías a través de las diferentes técnicas multivariantes. En este sentido, se aplicó el método de imputación MICE, aunque existen otros métodos mencionados para apaliar los datos faltantes, por ser una técnica que utiliza ecuaciones encadenadas en el proceso de imputación aleatoria de cada variable, y estas están condicionadas a las variables imputadas, conservando la dependencia en la estructura de correlación del algoritmo y preservando la calidad relacional del conjunto original, que es uno de los aspectos relevantes para aplicar la técnica del análisis de componentes principales (PCA), puesto que se conoce que la estructura de correlación puede ser bastante sensible a las distintas técnicas de imputación, siendo estas necesarias de estudiar antes de aplicarlas según el tipo de variables del conjunto de datos. Asimismo, se abordó el problema de la dimencionalidad mediante tres técnicas diferentes, como son (i) análisis de componentes principales (PCA); (ii) métodos Random Forest por Gini Index & Information Value por aplicación Weight-Of-Evidence (RF&IV) para definir la selección de importancia de variables y disminuir eficientemente la dimensión espacial; y (iii) análisis paralelo con datos simulados y de remuestreo (APS-REM) basado en la matriz de correlaciones aleatoria, obteniendo la mejor reducción a través del análisis PCA con 12 componentes principales siendo las dos primeras las más relevantes. Finalmente, se aplicaron varias técnicas de clasificación supervisada y no supervisada, donde el algoritmo Cluster es la base central para el agrupamiento, originando tres grupos óptimos de patrones clínicos afines a sus propias características, y los otros métodos clasificatorios, como son Correspondencias (CA), Árbol de Decisión (DT) y Vectores Soporte (SVM), sirviendo de apoyo visual para detectar posibles grupos y a la vez, como mecanismo exploratorio para confirmar resultados sobre la información existente, dando un gran valor al resultado final óptimo alcanzado. En conclusión, se pretende mostrar que el abordaje de estas técnicas pueden servir para distintas situaciones en lo que se presente un volumen suficientemente grande de datos, donde es casi necesario una reducción del espacio dimensional a otro de menor dimensión semejante al original, supliendo los problemas de valores faltantes para un buena calidad de la información, y aplicando modelos clasificatorios para la búsqueda de patrones de perfiles clínicos con el fin de agrupar a los pacientes de forma eficiente y precisa y a su vez, poder extrapolar los resultados clínicos en estudios de investigaciones similares. Además, este planteamiento primario, será muy necesario en poco tiempo con la nueva iniciativa de la Unión Europea (UE), en el que se ha propuesto la creación del Espacio Europeo de Datos Sanitarios (EEDS) para todos los países miembros, lo que generara un volumen inmenso de datos sanitarios que requerirán de técnicas más sofisticadas para destacar la información relevante e indispensable que puedan ayudar a la toma de decisiones.