Integration of heterogeneous gene expression sources in human cancer pathologies, employing high performance computing and machine learning techniques

Castillo Secilla, Daniel

Integration of heterogeneous gene expression sources in human cancer pathologies, employing high performance computing and machine learning techniques

Castillo Secilla, Daniel

Dirigida por:

Ignacio Rojas Ruiz Director
Luis Javier Herrera Maldonado Codirector

Universidad de defensa: Universidad de Granada

Fecha de defensa: 02 de marzo de 2020

Tribunal:

Julio Ortega Lopera Presidente
Héctor Pomares Cintas Secretario
Isidro Cortés Ciriano Vocal
Manuel Gonzalo Claros Díaz Vocal
Pilar Martínez Ortigosa Vocal

Tipo: Tesis

Teseo: 614841 DIALNET DIGIBUG editor

Resumen

La batalla contra el cáncer se ha establecido como uno de los principales retos de la humanidad. Esto es debido al aumento año tras año del número de personas que padecen algún tipo concreto de cáncer. El aumento de la esperanza de vida, los malos hábitos de vida o la contaminación son factores a tener en cuenta en este crecimiento. Por ello, la comunidad científica e investigadora tiene en uno de sus puntos de mira el estudio y comprensión del desarrollo de esta enfermedad multifactorial. El tratamiento y análisis de datos biológicos provenientes de las diferentes ómicas existentes ayuda a abordar el estudio del cáncer desde diferentes perspectivas, para así tratar de buscar nuevas formas de diagnóstico precoz y aumentar la esperanza de vida y supervivencia de los pacientes. Además, con la implantación y abaratamiento de las tecnologías y plataformas Next Generation Sequencing, la precisión, calidad y cantidad de los estudios se ha incrementado notablemente, permitiendo paulatinamente el avance de la sociedad hacía la medicina personalizada o de precisión. A todo esto se le añade el uso de técnicas de aprendizaje automático aplicadas al estudio y evaluación de datos ómicos, el cual ha permitido llevar a cabo la búsqueda de grupos de biomarcadores o posibles huellas génicas que antaño eran inviables por la dimensionalidad del problema. Bajo estas premisas, el objetivo principal de esta tesis es la búsqueda de biomarcadores a nivel de expresión de gen, mediante la integración de fuentes heterogéneas de datos transcriptómicos para diferentes patologías de cáncer. Para llevar a cabo dicha búsqueda, se han recolectado datos públicos y heterogéneos de diferentes Bases de Datos para realizar su integración y análisis de expresión diferencial en busca de biomarcadores relevantes. Además, mediante el uso de técnicas avanzadas de selección de características y aprendizaje automático, dichos biomarcadores son evaluados con el fin de saber su potencial a la hora de discernir el estado de un paciente. Todo ello, acompañado de un estudio biológico a nivel de literatura del conjunto final de genes destacados en cada caso. Como colofón de esta tesis, se ha llevado a cabo el diseño e implementación de una herramienta actualmente pública en el lenguaje R llamada KnowSeq. Dicha herramienta se diseñó con el fin de brindar a los expertos en el ámbito de la bioinformática una manera de automatizar, bajo un solo paquete software, todos los procesos implicados en los análisis de expresión de gen.