Analysis of Functional Annotations in Regulatory Elements

  1. García Moreno, Adrián
Dirigida por:
  1. Pedro María Carmona Sáez Director

Universidad de defensa: Universidad de Granada

Fecha de defensa: 06 de octubre de 2023

Tipo: Tesis

Resumen

Los avances en las técnicas de alto rendimiento, caracterizadas por una mayor precisión y asequibilidad de las mediciones, han contribuido significativamente a mejorar nuestra comprensión de los sistemas biológicos a nivel molecular. Este desarrollo ha impulsado el avance de la investigación de las ómicas en biomedicina, especialmente, de cara a los retos actuales que plantean las enfermedades complejas. Sin embargo, la gran heterogeneidad de las enfermedades complejas acentúa la necesidad de una medicina personalizada y de la integración de las diferentes capas que regulan los sistemas biológicos. Estos estudios buscan identificar biomarcadores a partir de investigar la relación entre las distintas moléculas que gobiernan el flujo de información genética. Por lo general, los resultados de la investigación de datos ómicos producen grandes listas de biomarcadores candidatos. Para darles sentido se requieren metodologías bioinformáticas, en particular, el análisis de enriquecimiento de anotaciones funcionales. Éste método aplica una prueba estadística para evaluar la sobrerrepresentación de anotaciones biológicas dentro de una lista de biomarcadores en comparación con una referencia. Aunque el análisis de enriquecimiento funcional de genes y proteínas es una metodología establecida, existe una notable carencia de herramientas que permitan explorar las implicaciones funcionales asociadas a elementos reguladores. El objetivo general de esta tesis es abordar el vacío existente contribuyendo a la comunidad científica biomédica con una herramienta de enriquecimiento funcional para analizar listas de elementos reguladores. Tras revisar detenidamente el estado del arte de las metodologías de enriquecimiento para miARNs aprendemos que tanto estos como las islas CpG de metilación y factores de transcripción, tienen un método común que consiste en inferir sus implicaciones funcionales mediante las anotaciones asociadas a sus genes diana. Esto se debe a que las bases de datos de términos funcionales predominantes están dedicadas a los genes y las anotaciones de los elementos reguladores describen principalmente su papel natural y no su efecto funcional en los genes diana. En el caso concreto del análisis de los genes asociados a CpGs y miARNs, el método tradicional de enriquecimiento que aplica un test basado en la distribución hipergeométrica central sobre los genes asociados produce resultados sesgados hacia términos funcionales específicos y relacionados principalmente con el ciclo celular, los procesos de regulación y el cáncer. Las herramientas actuales proponen diferentes soluciones para el análisis de miARNs e islas CpG. Por ejemplo, para evitar las limitaciones del enfoque tradicional en miARNs, se deben testar las anotaciones del conjunto de miARNs, que se pueden obtener mediante la curación directa por expertos o tras transformar las anotaciones basadas en genes al nivel de miARNs. Por otro lado, una alternativa no sesgada para el análisis de CpGs emplea la distribución de Wallenius sobre la cual, sorprendentemente, ningún artículo sobre miARNs lo menciona. Nuestro objetivo aquí se centra en la evaluación y aplicación de una nueva adaptación del método de Wallenius para el análisis de miARNs. El nuevo método y la evaluación de otros conocidos para el análisis de enriquecimiento funcional no sesgado de elementos reguladores ha motivado el desarrollo de una nueva versión de GeneCodis. Para cumplir este objetivo, la nueva versión ha requerido una reingeniería completa de la aplicación. Como resultado, GeneCodis 4 ofrece los últimos métodos necesarios para realizar análisis de enriquecimiento funcional de listas de genes, proteínas, miARNs, CpGs y factores de transcripción. La actualización también proporciona una mejora del algoritmo de descubrimiento de co-anotaciones, una ampliación de la base de datos de anotaciones y organismos y nuevas visualizaciones interactivas. Es igualmente accesible para bioinformáticos y científicos de laboratorio gracias a su implementación como herramienta web con una interfaz de programación de aplicaciones. Por último, casi ninguna literatura estudia el análisis de enriquecimiento de listas de factores de transcripción. En este contexto, los autores de la única herramienta para realizar análisis de enriquecimiento singular de factores de transcripción, TFTenricher, parecen haber pasado por alto el análisis de enriquecimiento sesgado de elementos reguladores. Esto nos brindó la oportunidad de evaluar y demostrar que el número variable de factores de transcripción por gen regulado contribuye al enriquecimiento constante de términos de vías de señalización, regulación de la transcripción, ciclo celular y cáncer. Por último, hemos validado la potencia del enfoque de Wallenius en el contexto de los factores de transcripción mediante simulaciones nulas y el reanálisis de dos casos reales.