Automatic identification of the protein fold type using representations from the amino acid sequence and deep learning techniques

  1. Villegas Morcillo, Amelia Otilia
Dirigida por:
  1. Victoria Eugenia Sánchez Calle Codirectora
  2. Ángel Manuel Gómez García Codirector

Universidad de defensa: Universidad de Granada

Fecha de defensa: 25 de noviembre de 2022

Tribunal:
  1. Noelia Ferruz Capapey Presidente/a
  2. José Andrés González López Secretario
  3. Ahmed Mahfouz Vocal

Tipo: Tesis

Resumen

Las proteínas son los componentes básicos de la vida ya que están presentes en la mayoría de procesos biológicos de los seres vivos. La determinación de la estructura tridimensional de la proteína es esencial para muchas aplicaciones incluyendo el desarrollo de fármacos y el diseño de proteínas. Sin embargo, el alto coste de los métodos experimentales ha generado una brecha entre el número de secuencias y estructuras 3D de proteínas disponibles en las bases de datos. Además, a pesar de que toda la información necesaria para plegar una proteína está contenida en su secuencia de aminoácidos, la determinación de la estructura por métodos computacionales es difícil debido a la complejidad de las interacciones físicoquímicas que definen dicha estructura. Un paso hacia su resolución es la identificación del tipo de plegamiento (fold) mediante comparación con estructuras resueltas. Sin embargo, este enfoque ha sido superado recientemente por varios métodos basados en aprendizaje profundo, los cuales han logrado producir estructuras 3D muy precisas desde cero. A pesar de ello, sigue siendo crucial el desarrollo de algoritmos que identifiquen similitudes secuenciales y estructurales entre proteínas a un bajo coste computacional. Dado que las estructuras tienden a conservarse mejor que las secuencias a lo largo de la evolución, la predicción del tipo de plegamiento de la proteína es también una herramienta para encontrar proteínas relacionadas entre sí a nivel estructural sin necesidad de ser similares a nivel de secuencia. Esto podría ayudar en la anotación de proteínas poco comunes que están aún por caracterizar. El objetivo principal de esta Tesis es, por tanto, avanzar en la investigación de los métodos de predicción del plegamiento de proteínas explotando la información contenida en las secuencias de aminoácidos mediante el uso de algoritmos de aprendizaje profundo. Los resultados se presentan en esta memoria como un compendio de artículos científicos que han sido publicados durante el periodo doctoral. Las estrategias propuestas exploran diferentes direcciones de investigación con una base común: el uso de técnicas de aprendizaje profundo para aprender representaciones compactas (embeddings) significativas de los tipos de plegamiento de las proteínas. En primer lugar, se han evaluado representaciones en forma de imagen de la proteína para la tarea de reconocimiento del plegamiento, incluyendo los mapas de contactos estimados y mejorados, así como los mapas de contactos nativos y de distancias categorizadas (a partir de la estructura 3D). Seguidamente, se ha propuesto una arquitectura de red neuronal de tipo convolucional-recurrente para el reconocimiento del plegamiento, la cual procesa con éxito secuencias de proteínas de longitud arbitraria utilizando características a nivel de aminoácido. Posteriormente, se han aprendido espacios de embedding más discriminativos de los plegamientos mediante el ajuste del entrenamiento de las redes neuronales, en particular la función de pérdidas y el uso de vectores prototipo para cada clase con objeto de guiar la clasificación. Por último, se ha analizado el rendimiento de varios embeddings extraídos de modelos de lenguaje de proteínas para las tareas de reconocimiento y clasificación de pliegues, los cuales han demostrado ser prometedores y con gran potencial para el campo.