Integración y análisis de datos genómicos mediante patrones difusos
- López, Francisco Javier
- Armando Blanco Morón Director
- Antonio Marín Director/a
Universidad de defensa: Universidad de Granada
Fecha de defensa: 19 de febrero de 2010
- José Muñoz Pérez Presidente/a
- Daniel Sánchez Fernández Secretario
- Henrik Legind Vocal
- Ralf Erik Wellinger Vocal
- Ignacio Requena Ramos Vocal
Tipo: Tesis
Resumen
La secuenciación de los genomas de diversas especies, así como el desarrollo de nuevas tecnologías genómicas, han dado lugar a una enorme cantidad de datos biológicos que se encuentran dispersos en muchas bases de datos, La integración y el análisis de estos datos es necesaria para alcanzar un mayor entendimiento del funcionamiento celular. Así, las reglas de asociación son una herramienta muy útil en este campo, dada su eficiencia al manejar grandes conjuntos de datos, su capacidad de tratar información heterogénea y la fácil interpretación de los resultados obtenidos con esta técnica. Además, los datos biológicos tienden a ser imprecisos y ruidosos. Existen técnicas computacionales, como las técnicas difusas, que han demostrado ser especialmente apropiadas para modelar este tipo de datos. En este trabajo se propone una metodología basada en un algoritmo de extracción de reglas de asociación difusas para extraer conocimiento de datos biológicos. Dicha metodología se aplica sobre una base de datos en la que se integró información estructural y funcional del genoma de la levadura. Los buenos resultados obtenidos de este estudio permitieron abordar un trabajo más ambicioso: analizar las características genómicas del cáncer de mama. Se integró en un conjunto de datos información de los principales factores de pronóstico en el cáncer de mama con valores de expresión del genoma completo. El descubrimiento de vínculos entre estos dos tipos de datos puede dar lugar a nuevos marcadores del cáncer de mama, lo que a su vez ayudará a mejorar los tratamientos que se aplican a pacientes con un pronóstico poco claro. La última parte de esta memoria se dedica al estudio de los mecanismos de regulación genética. En las células eucariotas, las regiones de control de los genes están formadas por su promotor y por una serie de elementos reguladores que pueden encontrarse lejos del gen. Combinaciones de proteínas reguladoras (los factores de transcripción), se unen de forma coordinada a dichas secuencias (sitios de unión de factores de transcripción ó TFBSs) y producen los patrones de expresión adecuados. Aprovechando la capacidad de las técnicas difusas para manejar la imprecisión, inherente a la información acerca de secuencias reguladoras, se presenta un nuevo enfoque para estudiar las coocurrencias significativas de TFBSs cercanos en el genoma de la levadura. La metodología se basa en el uso de un algoritmo de extracción de itemsets frecuentes y difusos, y solventa algunas de las limitaciones de propuestas previas. Los resultados confirman su buen funcionamiento y permiten plantear su aplicación a genomas más complejos en trabajos futuros.