Development of advanced computational systems for multiple sequence alignments by using heterogeneous biological information

Ortuño Guzmán, Francisco Manuel

Development of advanced computational systems for multiple sequence alignments by using heterogeneous biological information

Ortuño Guzmán, Francisco Manuel

Dirigida por:

Ignacio Rojas Ruiz Director

Universidad de defensa: Universidad de Granada

Fecha de defensa: 28 de julio de 2014

Tribunal:

Alberto Prieto Espinosa Presidente
Héctor Pomares Cintas Secretario
Miguel Ángel Vega Rodríguez Vocal
Horacio E. Pérez Sánchez Vocal
Enrique Manuel Muro Sánchez Vocal

Tipo: Tesis

Teseo: 366698 DIALNET DIGIBUG editor

Resumen

El campo de la Bioinformática está continuamente generando nuevos retos debido a la necesidad de analizar la gran cantidad de información biológica de la que se dispone en la actualidad, principalmente extraída de las nuevas técnicas de secuenciación masiva (NGS). Algunos de estos desafíos están enfocados al análisis de secuencias de proteínas, para obtener o predecir otras características relacionadas tales como estructuras, funcionalidades u homologías. Una de las herramientas más potentes en este sentido son los alineamientos múltiples de secuencias (MSAs). Los MSAs constituyen una de las estrategias más ampliamente utilizadas en la actualidad en la Biología Molecular. Su principal cometido es la comparación de cadenas moleculares (principalmente nucleótidos o aminoácidos) en la búsqueda de las semejanzas y diferencias más relevantes. Estas técnicas fueron inicialmente diseñadas para la transferencia de homología gracias a lo cual secuencias de proteínas pobremente caracterizadas podían compararse con otras homólogas, profundamente conocidas, pertenecientes a organismos modelos. En la actualidad, el uso de las estrategias de MSAs se ha extendido a otros numerosos campos como los análisis filogenéticos, modelado estructural de proteínas o predicciones de funcionalidad. El desarrollo en los últimos años de novedosas técnicas experimentales tales como la secuenciación masiva o de nueva generación (NGS) y experimentos de alto rendimiento, han conllevado una gran demanda de este tipo de análisis. Las estrategias de MSAs contribuyen a la obtención de información biológica a partir de las coincidencias entre las secuencias de nucleótidos o de aminoácidos. Así, es esencial que las herramientas de MSAs sean capaces de procesar la enorme cantidad de información generada a través de las anteriormente citadas técnicas. Con este fin se están aplicando numerosas estrategias computacionales avanzadas basadas en algoritmos de inteligencia artificial y de aprendizaje supervisado (machine learning) tales como modelos ocultos de Markov (hidden Markov models, HMMs), máquinas de vector soporte (support vector machines, SVMs) o algoritmos genéticos (GAs). Así, las técnicas de alineamiento múltiple de secuencias están considerados en la actualidad uno de los procedimientos más potentes y necesarios en la Bioinformática. Sin embargo, es todavía necesario abordar ciertas carencias que presentan estas técnicas. En primer lugar, a pesar de la existencia de numerosas herramientas para el alineamiento múltiple de secuencias, todavía no se dispone de un estándar apropiado para construir los alineamientos. Como consecuencia, cada herramienta genera un alineamiento que puede diferir notablemente del generado por otra, debido a la aplicación de sus propios criterios. La evaluación de los alineamientos también genera un problema adicional. Dado que no existe un consenso acerca de qué metodología es la más adecuada para evaluar el alineamiento, se tiende a evaluarlo aplicando los sistemas clásicos de evaluación tales como PAM o BLOSUM lo que puede conllevar a alineamientos no suficientemente precisos. Así, la mejora de estos sistemas de evaluación mediante la incorporación de información complementaria podría contribuir a la mejora del análisis de calidad y a la obtención de herramientas de alineamiento más eficientes. Finalmente, también es ampliamente conocido que las técnicas clásicas de alineamientos de secuencias no proporcionan una calidad aceptable en el alineamiento cuando se trata de secuencias evolutivamente distantes. En estos casos la información obtenida de las secuencias podría ser insuficiente para alcanzar el alineamiento más óptimo. Por tanto, esta tesis está orientada a tratar de dar solución a los problemas previamente expuestos sobre las técnicas de alineamiento múltiple de secuencias. Estas soluciones están basadas principalmente en sistemas inteligentes y avanzados que se han aplicado a los problemas de regresión, predicción, clasificación y optimización subyacentes a los MSAs. En concreto, hemos propuesto tres aportaciones a este campo considerando la necesidad de obtener alineamientos eficientes y precisos así como la necesidad de mejora de los sistemas de evaluación. La primera contribución de esta tesis considera numerosas herramientas ampliamente conocidas de MSA para predecir cuál de ellas proporcionaría un alineamiento más preciso para un conjunto de secuencias que se quieren alinear. Específicamente, en esta sección de la tesis, se estimará la calidad de cada herramienta de MSA analizada para alinear un conjunto determinado de secuencias, antes de que el alineamiento sea realizado. Este algoritmo está basado en un modelo de Least-Squares Support Vector Machine (LS-SVM) e integra características biológicas relevantes obtenidas de varias fuentes y bases de datos. El segundo aporte de esta tesis doctoral es una herramienta similar a la anterior pero con un propósito considerablemente diferente. En este caso se propondrán una serie de modelos de regresión (procesos Gausianos, árboles de regresión, Bagging trees y LS-SVM) para diseñar diversos sistemas de evaluación de alineamientos. Estos sistemas de evaluación tienen como objetivo integrar no sólo la información que se extrae de los alineamientos sino también otras características de las proteínas que han sido alineadas. De esta manera presentamos un sofisticado sistema de evaluación capaz de detectar relaciones más distantes entre secuencias y, por tanto, capaz de estimar de forma más realista la precisión de los alineamientos. Por último, la tercera propuesta de esta tesis doctoral es una optimización de las técnicas de alineamiento múltiple de secuencia. Con esta aportación se pretende mejorar la calidad de los alineamientos llevados a cabo por otras técnicas. Este optimizador está basado en un algoritmo genético con una función de fitness multiobjetivo. Dicho algoritmo aplica operadores de crossover y de mutación diseñados por nuestro grupo de investigación así como tres objetivos diferentes, uno de los cuales está basado en la conservación de la estructura de las secuencias. Así, la adicción de información estructural nos permite obtener alineamientos más precisos en los casos de secuencias menos relacionadas evolutivamente.