A nonlinear systemic approach to genome analysis

  1. Warfsmann, Jens
Dirigida por:
  1. Hilario Ramirez-Rodrigo Director

Universidad de defensa: Universidad de Granada

Fecha de defensa: 08 de febrero de 2016

Tribunal:
  1. Marta Cascante Serratosa Presidente/a
  2. Fernando Jesús Reyes Zurita Secretario
  3. Heiko Schoof Vocal
  4. Armando Blanco Morón Vocal
  5. Mark Wilkinson Vocal
Departamento:
  1. BIOQUÍMICA Y BIOLOGÍA MOLECULAR I

Tipo: Tesis

Resumen

Resumen en castellano La investigación llevada a cabo ha tenido como objetivo fundamental la implementación, puesta a punto y análisis preliminar de un procedimiento original para la discriminación sistémica, de alta sensibilidad, de genomas o epigenomas representativos de condiciones tipo. Los resultados obtenidos, presentados en esta memoria, avalan el enfoque sistémico propuesto, que se basa en dos conjeturas fundamentales: por una parte la consideración de que las dinámicas adaptativas a las que se ven sometidos los Genomas pueden ser analizadas desde la óptica de los Sistemas Complejos Adaptativos y, en particular, desde el marco conceptual y metodológico de las teorías que sobre Complejidad y Caos determinista han venido desarrollándose durante los últimos veinte años y que se han aplicado con éxito en otros campos. Por otra parte, la presunción de que las secuencias de ADN pueden ser conceptualizadas como series temporales multivariantes no lineales y ser tratadas como tales a nivel de modelos formales. Ello es posible porque conceptualmente una serie temporal es en esencia una colección ordenada de valores observacionales relativos a una de las variables de estado del sistema. No es la temporalidad en sentido estricto sino la ordinalidad de los datos lo que determina su dimensión "temporal", de tal modo que para todo valor vi de la variable considerada puede establecerse de manera unívoca el valor precedente vi−1 y el subsecuente vi+1. Aunque no conocemos la existencia, por el momento, de ningún planteamiento teórico riguroso al respecto, ninguno de estos dos presupuestos son extraños al campo del Análisis del DNA [1,2]. La aplicación de métodos de análisis de Time Series a secuencias de DNA viene ya, de hecho, empleándose de forma puntual desde finales de los ochenta [3–6]. Por otra parte, la representación de genomas, interactomas, proteomas y otros en términos de Redes Complejas Adaptativas (una estrategia frecuente en análisis de Sistemas Complejos) es ya habitual en numerosos contextos de la moderna Biología de Sistemas [6–9,2]. Se trata este último de un enfoque singularmente potente, ya que desde los trabajos pioneros de de Erdós y Rennyi [10,11], el marco formal y metodológico del análisis de redes aleatorias está muy bien establecido y es fácil extrapolar las conclusiones obtenidas de los modelos de red a los Sistemas Complejos originales, más elusivos al análisis. Barabasi señala que en tanto que la emergencia de las redes biológicas complejas es el resultado de dinámicas de autoorganización gobernadas por leyes simples de carácter genérico, comparten características prominentes que las definen [8]. Entre ellas están la estructura de escala libre y la organización jerárquica de los módulos funcionales. Desde esta perspectiva debe admitirse que junto al carácter intrínsecamente estocástico de muchos de los procesos dinámicos en biología, sus atractores serán con frecuencia atractores extraños (en el sentido de Prigogine) que incluyan en mayor o menor medida una componentes de caos determinista capaz de ser reconocida en la estructura de las redes complejas que los representan. Y en efecto, el carácter autosimilar de la distribución de nodos en muchas de estas redes -que siguen una ley potencial- confirmaría en efecto ese carácter determinista. A nivel de mutación, los cambios observados en el genoma de las células tumorales son de carácter puntual y afectan a elementos clave del proceso tumorigénico. Con frecuencia son cambios acumulativos que se producen en un conjunto muy específico de genes y cuya “lógica” puede ser establecida de modo directo porque afectan a elementos directamente implicados en los procesos de diferenciación y proliferación celular, supresión de tumores, organización del material nuclear, vulnerabilidad frente a determinados agentes o en procesos de comunicación y adherencia celular. Este conjunto singular, y relativamente reducido, de oncogenes que sufren alteraciones altamente correlacionables con el proceso de malignización celular y carcinogénesis ha permitido la definición de marcadores tumorales con un valor diagnóstico reconocido. El análisis de estos marcadores permite, en efecto, apoyar el diagnóstico de determinados tipos de cánceres y estimar su agresividad y, en definitiva, el pronóstico de la enfermedad. Que el proceso de malignización celular va igualmente acompañado de cambios específicos en la metilación del DNA y que estos cambios son determinantes para la implantación y el desarrollo del tumor son hechos reconocidos desde hace tiempo Feinberg and Vogelstein [13]. No es extraño que los primeros esfuerzos fuesen orientados a la identificación de alteraciones específicas en la metilación del DNA equiparables a los marcadores tumorales anteriormente descubiertos. Sorprendentemente, y a la luz sobre todo de los numerosos estudios llevados a cabo a partir de análisis de metilación a escala genómica de DNA humano, hoy sabemos que los cambios epigenéticos que acompañan al proceso de carcinogénesis son sustancialmente diferentes. Pese a que se han identificado modificaciones específicas en la metilación de las islas CpG de promotores de determinados factores de transcripción y otros elementos directamente implicados en la implantación del tumor, lo que apuntaría hacia la existencia de unos “marcadores tumorales de metilación”, estadísticamente correlacionables y potencialmente equivalentes a los marcadores mutacionales, lo cierto es que la metilación del DNA en células tumorales es cualitativa y radicalmente diferente a la de sus correspondientes homólogos celulares sanos. De hecho las modificaciones epigenéticas observadas en las células tumorales afectan a extensas regiones del genoma y presentan además una característica adicional inesperada: las modificaciones no son únicas sino que muestran una manifiesta heterogeneidad entre los diferentes clones tumorales. Es por ello que numerosos autores hablan de una "desregulación epigenética" que acompañaría al proceso de tumorigénesis. Más que como un proceso de desregulación, algunos autores han vinculado estos cambios a un hipotético proceso potencial de adaptación Darwiniana de los diferentes clones mediante ajuste epigenético de su reguloma [14,15]. Según esta perspectiva, la metilación diferencial de los diferentes clones tumorales incrementaría las posibilidades de implantación del tumor mediante un proceso intraevolutivo de selección natural de aquellos metilomas que mejor favoreciesen su desarrollo. Los datos actuales son todavía insuficientes para poder asegurar que tal tipo de proceso tenga entidad real y mucho menos para, en caso positivo, estimar su relevancia potencial o su universalidad en el mecanismo de tumorigénesis. Entre otras cosas porque en la actualidad no disponemos aún de un modelo coherente y bien definido del papel de la regulación Epigenética del genoma ni ontogénica ni filogénicamente hablando. Circunstancialmente, y a falta de pruebas directas, la hipotética existencia de tal tipo de mecanismos vendría avalada por dos características: a) Las modificaciones epigenéticas serían variables y heterogéneas y b) una vez desencadenado el proceso por uno o varios mecanismos (aún desconocidos), las metilaciones diferenciales deberían ser numerosas (a escala genómica) y seguir patrones sistémicos. Ambas características coinciden con los datos observados. Tal dispositivo epigenético de optimización adaptativa, en caso de existir, conferiría al biosistema una ventaja evolutiva muy relevante: constituiría un auténtico dispositivo de plasticidad adaptativa de carácter reversible y rápido. Un sistema de optimización mediante aprendizaje (al modo de un algoritmo de "machine learning"), que a) debería probablemente estar sujeto a un control preciso; b) tendría naturaleza sistémica, de modo que las diferentes configuraciones alcanzadas podrían ser consideradas como atractores alternativos o propiedades emergentes y c) no podría ser identificado/interpretado fácilmente mediante las técnicas estadísticas convencionales. Para su análisis se requerirían métodos no lineales propios de la dinámica de sistemas complejos adaptativos. El análisis de recurrencia de los atractores desplegados mediante embedding de series temporales de densidad de metilación de DNA, de densidad de pares GC y de otras posibles variables genómicas relevantes, mediante aplicación de los teoremas de Taken-Ruelle [16–18] y Poincaré [19] se nos planteó claramente, en este contexto, como una de las posibilidades a investigar y por ello buena parte de este trabajo se ha centrado en el desarrollo de un protocolo metodológico completo que permitiese trasladar su probado potencial al campo de la genómica estructural, la filogenómica y la epigenómica de metilación de ADN. De manera global, los resultados obtenidos indican que este planteamiento no solo es posible sino que nos ha permitido obtener descripciones altamente compactas de secuencias de ADN que retienen muchas de las características estructurales esenciales de los sistemas originales, hasta el punto de poder ser discriminados eficientemente mediante métodos de inteligencia artificial basados en algoritmos de aprendizaje automático ("machine learning"), en nuestro caso del tipo de vectores soporte ("support vector machines"). Quedan pendientes, sin duda, cuestiones relevantes, como la posibilidad de aplicar el teorema de ergodicidad [20] a las series temporales de DNA, sobre las que se mantiene todavía un encendido debate teórico acerca del ámbito de aplicación de los modelos empleados [21,9,22], pero que, de cualquier forma, no nos ha impedido en nuestro caso llevar a cabo predicciones precisas en el terreno de la Epigenética del cáncer o la relación filogenética de comunidades de chimpancés en el áfrica Central. También nos ha permitido acercarnos a la estructura del genoma del tomate desde una perspectiva sistémica que abre nuevas perspectivas sobre su anotación, en la que también se ha participado. Así por ejemplo, mediante el protocolo de análisis cuantitativo de recurrencia implementado en este trabajo ha sido posible representar fragmentos de DNA de 240 megabases (cromosoma I humano completo) en términos de solo siete valores escalares. Cuando la representación corresponde a la secuencia de metilación de muestras procedentes de células sanas o cancerosas, este único vector 7-dimensional permite discriminar los patrones epigenéticos con porcentajes de acierto superiores, en ocasiones, al 98%. Cuando la serie temporal procede de distancias intergénicas, es posible representar el Genoma completo del tomate en términos de 12 vectores 7-dimensionales (84 valores), que deberían ser potencialmente suficientes para abordar una gran variedad de problemas, a medida que se vayan disponiendo de datos suficientes en el futuro. La implementación del protocolo propuesto ha requerido abordar previamente una serie de aspectos metodológicos fundamentales. La teoría establece que para desplegar el atractor del sistema en el espacio n-dimensional adecuado, las coordenadas de los hiperpuntos se construyen a partir de la serie temporal inicial, tomando valores sucesivos desfasados en un cierto desplazamiento ("delay") que debe ser previamente estimado. Además la propia dimensionalidad del espacio de fases debe ser también determinada de forma adecuada. La estimación adecuada de ambos parámetros no es sencilla: el algoritmo de "falso vecino más proximo" ("false nearest neighbor" o FFN) empleado para estimar la dimensión del despliegue del atractor en el espacio de fases ("embedding") depende de la elección del umbral y, por su parte, la estimación del desplazamiento requiere fijar estrategias adecuadas para la detección de mínimos. Por estas razones y porque interesaba además comprobar que el software desarrollado por nosotros se comportaba de la manera adecuada, fue necesario emplear un modelo de referencia conocido – el atractor de Roessler en nuestro caso – que se empleó como banco de pruebas de nuestro protocolo experimental. Las pruebas llevadas a cabo con este modelo nos permitieron poner a punto el método y confirmar su efectividad para desplegar el atractor a partir de series temporales de una de sus variables, verificándose que, como predice el Teorema de Takens, el atractor reconstruido retiene las características topológicas del original. Una vez establecida de forma preliminar su validez, la herramienta desarrollada se aplicó al estudio de la deriva Epigenética que, en términos de metilación de DNA, acompaña al proceso de carcinogénesis. El estudio se hizo, además, con el objetivo de establecer la importancia del enfoque sistémico, en el sentido indicado anteriormente, como enfoque capaz de desvelar aspectos sistémicos, difícilmente identificables con las aproximaciones convencionales. Para ello se implementó un procedimiento de análisis cuantitativo de recurrencia (RQA) de los diagramas de recurrencia obtenidos a partir de los mapas de distancia de los puntos del atractor desplegado a partir de las series temporales iniciales (ver Material y Métodos). Los parámetros de RQA obtenidos fueron empleados, en la mayoría de los casos, para efectuar clasificaciones binarias mediante un algoritmo de aprendizaje automático basado en vectores soporte (SVM). Estos resultados confirman que la compresión de la secuencia de metilación de un cromosoma humano completo en un único vector RQA 7-dimensional retiene la información necesaria para identificar de forma muy efectiva la deriva epigenética que acompaña al proceso de malignización celular, al menos en los tipos estudiados. En realidad, el protocolo es lo suficientemente sensible como para que el simple examen visual de las proyecciones bidimensionales de los vectores de RQA nos permita ya establecer diferencias manifiestas entre células normales y células tumorales, con independencia del cáncer de que se trate. Resulta llamativo constatar la dispersión de los patrones de metilación en células tumorales cuando se comparan con los correspondientes valores de células sanas señalada anteriormente. Como ya se ha mencionado, desde los trabajos pioneros de Prigogine [23–25] y otros, sabemos que los sistemas complejos adaptativos (CAS) se comportan dinámicamente como sistemas no lineales cuyos atractores finales comportan a menudo "escenarios" de estabilidad singularmente complicados ("atractores extraños"). Aunque normalmente no es posible saber cómo son en realidad estos atractores, la reconstrucción a partir de series temporales permitiría, como es nuestro caso, disponer de modelos topológicamente equivalentes, que aún retienen una información valiosa sobre el sistema original. Según lo dicho anteriormente, desde esta perspectiva se podría considerar que la metilación diferencial de los clones tumorales que aparecen durante la carcinogénesis representan, de hecho, "soluciones adaptativas" del metabolismo tumoral (cuya deriva sería aquí considerada como la dinámica de un sistema CAS) y, por tanto, como configuraciones estables de atractores sistémicos no lineales, susceptibles de ser analizados mediante nuestro protocolo experimental. Si esta premisa fuese correcta, la deriva epigenética ("desregulación" para algunos autores) no podría ser satisfactoriamente explicada en términos de “marcadores” epigenéticos. En otras palabras, los cambios no obedecerian necesariamente a modificaciones específicas de la metilación de posiciones concretas (como sí tiende a suceder en el caso de los cambios mutacionales). Por el contrario, la "deriva metilacional" sería una consecuencia de los mecanismos intraevolutivos potenciales que operarían durante la carcinogenesis. Mecanismos que, por otra parte, no implican en absoluto que tengan que descartarse la existencia de posiciones específicas cuyos cambios en el estado de metilación son estadísticamente correlacionables con el proceso de carcinogénesis. Por el contrario, la deriva epigenética asociada al proceso de implantación del tumor sería compatible con la existencia de ciertas posiciones esenciales para alcanzar el "nicho" adaptativo (cuyos cambios en el estado de metilación fuesen por tanto invariantes) y pese a ello seguir siendo un proceso esencialmente sistémico, difícilmente caracterizable en su totalidad por la sola presencia de estas invariancias. En otras palabras, es concebible que todas la "soluciones adaptativas" compartan ciertas invariancias pero respondan a una dinámica propia de sistemas CAS. Aunque al comienzo de este trabajo no disponíamos aún de pruebas concluyentes acerca de la existencia de una dinámica sistémica de este tipo, dos argumentos diferentes apoyaban dicha posibilidad: por una parte el entorno ambiental del tumor durante su fase de implantación es manifiestamente hostil, por lo que las células tumorales se encuentran inicialmente bastante lejos de su óptimo adaptativo. Por otra parte, la posible implantación de mecanismos intraevolutivos de tipo Darwianiano estaría facilitada en el tumor emergente por su intrínsecamente rápida velocidad de crecimiento. En caso de ocurrir, un mecanismo de sistémico de este tipo sería, además, difícil de detectar mediante procedimientos convencionales. Para profundizar en torno a esta cuestión fundamental se diseñaron estrategias diferentes para valorar la eficacia de las predicciones basadas en marcadores tumorales (basadas en metilación diferencial de sitios CpG) y las predicciones basadas en criterios sistémicos (markerless). En un primer grupo de experimentos se compiló una lista de sitios CpG metilados diferencialmente en células sanas y tumorales. Por otra parte se identificaron dos tipos de motivos con significación Epigenética que han sido descritos en la literatura con anterioridad. En su conjunto los tres tipos de elementos constituían más del 50% del cromosoma I. A continuación se crearon series temporales en las que se eliminaron sistemáticamente estos elementos relacionados con cáncer del material genético de partida, de modo que las time series solo contenían el material restante. Globalmente, los resultados obtenidos demostraron que la fracción de cromosoma restante retiene aún la firma epigenética que permite discriminar las células normales de las cancerosas. Una posible interpretación de los resultados obtenidos es que, en efecto, se confirma que la firma epigenética que caracteriza la malignización celular “está en el todo y en la parte”. Se trataría en otras palabras de una característica emergente de carácter significativamente sistémico. Ciertamente, otra posible interpretación es que no todos los elementos significativos en el proceso han sido identificados en la actualidad. Aun cuando esta posibilidad es, por razones obvias, muy difícil de descartar por completo, resulta a nuestro juicio bastante más difícil de justificar. Suponiendo que la pérdida de capacidad discriminativa del clasificador empleado sea una medida del peso relativo que los supuestos elementos desconocidos tendrían sobre el total, estaríamos hablando de que aún faltarían por identificar entre un 20% Y un 40% de elementos relevantes en el proceso de carcinogénesis. Y que estos hipotéticos elementos desconocidos serían además comunes a la práctica totalidad de los 11 cánceres estudiados. La validez atribuida en la literatura por otros autores a los marcadores de metilación se vió claramente confirmada cuando se compararon las predicciones realizadas con nuestro protocolo experimental y las llevadas a cabo con diferentes sets de símbolos relacionados con cáncer, mediante entrenamiento directo (sin reconstitución de series temporales en el espacio de fases ni RQA) del mismo algoritmo de aprendizaje, en condiciones comparables. Los resultados obtenidos para cáncer de cabeza y cuello mostraron performances muy elevadas prácticamente idénticas en ambos casos. Sorprendentemente, bastó un número relativamente reducido de marcadores para lograr un AUC de 97.4% frente a 98.6% en la predicción sin marcadores. Por ello y para recabar más datos acerca del posible carácter sistémico de la deriva epigenética asociada a la carcinogénesis se llevó a cabo un tercer tipo de experimentos en los que las predicciones se realizaron previo entrenamiento del algoritmo de aprendizaje con muestras aleatorias de sitios de metilación no relacionados con cáncer (de tamaño reducido, comparable al número de marcadores empleados anteriormente). Aunque el estudio llevado a cabo es aún preliminar, los resultados obtenidos, sorprendentemente, continuaron siendo buenos (AUC mayores que 90%) incluso limitando el tamaño de las muestras a solo 18 pseudomarcadores. La validez de estos resultados fue confirmada empleando controles compuestos por muestras idénticas aunque con las posiciones aleatorizadas. En su conjunto, nuestros datos sugieren que las diferencias en el patrón epigenético de las células cancerosas respecto a las normales se debe no solo a la existencia de unos marcadores de metilación bien definidos, cuya correlación con el proceso de malignización celular, ya establecida en la literatura, ha sido confirmada por nuestras observaciones con un procedimiento alternativo basado en un algoritmo de SVM, sino que también tienen un carácter sistémico que se potencialmente se extiende a toda la secuencia de DNA y que puede ponerse de manifiesto con un número muy reducido de posiciones potencialmente metilables. Asumiendo que las diferencias de valores beta se extienden a toda la secuencia, pareció interesante investigar si la simple estimación total del grado de metilación (suma total de valores beta) sería suficiente para discriminar entre células controles y tumorales, pese a que no tenemos constancia de ningún estudio previo que apoye tal suposición. Por ello se diseñaron una serie de experimentos destinados a comparar las distribuciones de sumas beta en muestras de células tumorales frente a sanas, bajo diferentes condiciones, empleando como criterio de discriminación los valores de p obtenidos mediante el test no paramétrico de Wilcoxon para suma de rangos con corrección. Hemos encontrado que cuando se incluyen en el análisis todos los sitios CpG nuestros resultados indican por una parte que los valores de sumas beta son bastante parecidos entre células normales y cancerosas, por lo que la discriminación es generalmente difícil tanto si los resultados se estiman en términos de promedios de sumas beta, como si se interpreta en términos de p de test de Wilcoxon o se emplea un algoritmo de clasificación basado en SVM. Por otra parte, cuando se incluyen todos los sitios CpG se constata que cada tumor ofrece una respuesta diferente: en tanto que en el caso del carcinoma hepatocelular (LIHC) la discriminación es relativamente buena con cualquiera de los estimadores empleados, el carcinoma tiroideo papilar (THCA) no puede ser discriminado en ningún caso a partir de los valores de suma beta. Más interesante fue el comportamiento heterogéneo de los diferentes tumores en relación con la posibilidad de ser discriminados en términos de suma beta, cuando las muestras se restringen a los elementos relacionados con la deriva Epigenética del cáncer. Así por ejemplo, los símbolos de genes relacionados al cancer (CRGS), compilados ad hoc en este estudio, permiten una discriminación relativamente buena en el caso de cáncer de mama (BRCA), colon and adenocarcinoma rectal (COAD), LIHC y en menor medida adenocarcinoma de pulmón (LUAD) y carcinoma renal papilar (KIRP), en tanto que el carcinoma pulmonar de células escamosas (LUSC), THCA y carcinoma endometrial (UCEC) se muestran refractarios con esta muestra. Cuando se consideran las sumas beta de los dominios hipometilados BLOCKS, la capacidad de discriminación entre células normales y tumorales aumentó en casi todos los casos, aunque fue insuficiente para discriminar dos de ellos: PRAD y THCA. Finalmente, cuando las muestras corresponden a los dominios hipermetilados cDMR, todos los tumores pueden ser discriminados en términos de suma beta con una elevada significación estadística, con la excepción de THCA. Si las muestras se construyen a partir de regiones hiper- e hipometiladas los resultados obtenidos son, como cabía suponer, notablemente peores, ya que los valores globales de suma beta se componen de elementos positivos y negativos que se cancelan mutuamente. Teniendo en cuenta la heterogeneidad de muestras y procedimientos, los resultados obtenidos mostraron una coherencia bastante razonable. En su conjunto, estos resultados dibujan un escenario en el que se confirma claramente que la deriva Epigenética que acompaña al proceso de carcinogénesis en todos los tumores estudiados gravita sobre las regiones hipermetiladas cDMR, que resultan fundamentales para la caracterización de las células tumorales en todos los casos excepto en THCA y extensas regiones hipometiladas, cuya aportación al perfil epigenético de los diferentes cánceres es variable y podría estar ausente en dos de ellos, PRAD y THCA. Claramente los "símbolos" o "motivos" (CRGS) resultan más específicos y tendrían poco peso en la definición del perfil epigenético de LUSC, THCA y UCEC. En tanto que LIHC puede ser prácticamente discriminado en cualquiera de las condiciones del ensayo y THCA es difícilmente discriminable en casi todas las condiciones, ambos tipos de tumor podrían representar los dos extremos en relación a su carácter sistémico. Así, el perfil epigenético de LIHC afectaría a una gran parte del cromosoma, indicando que la deriva es en este caso muy acusada o que tiene una importante componente sistémica. THCA representaría el otro extremo: los cambios epigenéticos que acompañan el proceso de génesis tumoral serían mínimos en este caso, lo que lo alejaría del modelo sistémico, y tendrían un carácter bastante más específico o no sufrirían una deriva significativa, lo que, en cualquier caso, indicaría que las células malignizadas se encontrarían mucho más cerca de su nicho adaptativo óptimo, ya desde el principio. Quedaría por tanto justificado el hecho de que THCA es también el único de los tumores estudiados frente al que nuestro análisis sistémico obtuvo malos resultados. Otro conjunto de experimentos incluidos en esta memoria estuvieron destinados a la posible aplicación de nuestro protocolo experimental al análisis estructural de genomas. El estudio se llevó a cabo sobre el genoma completo del tomate, dado que una parte del desarrollo de esta memoria ha sido realizado por mi dentro del "Plant Computational Biology"-group (PCB) del Max-Planck- Institute for Plant Breeding Research, como parte del International Tomato Annotation Group (ITAG) y del Tomato Genome Consortium, contribuyendo al GO anotación funcional del genoma del tomate (Solanum lycopersicum). A partir de los 19662 genes anotados (57% del total de genes codificantes) y de la secuencia completa del genoma, se intentó analizar la posible existencia de correlaciones significativas entre distancia física intergénica y distancia funcional a partir de las tres ontologías de genes (GO): procesos biológicos (BP), función molecular (MF) and componente celular (CC). El segundo objetivo de este experimento era el de obtener los doce vectores RQA que representan en nuestro modelo sistémico al genoma completo del tomate, en términos de distancias intergénicas. Nuestros resultados apuntan a que no existe una correlación obvia entre distancia física y distancia funcional a partir de ninguna de las GO empleadas. Las tendencias de los perfiles obtenidos se explican en todos los casos a partir de las distribuciones observadas entre las distancias intergénicas. Con los datos actuales no es posible, de todas formas, completar este análisis con el nivel resolutivo que sería necesario para llevar a cabo RQA a partir de las distancias funcionales. En tanto que la metodología está disponible, la disponibilidad de nuevos datos permitirá avanzar en esta dirección en el futuro. En cuanto a los resultados de RQA de los doce cromosomas del tomate, nuestros datos revelan RPs muy diferentes a los obtenidos a partir del epigenoma del cromosoma I humano. Algunos de los valores encontrados indicarían que se trata de un sistema con una baja predictibilidad, contrariamente a lo que sugerían los RPs procedentes de genoma humano. Puesto que el alcance de nuestros datos es aún muy limitado, también en este caso será preciso caracterizar un mayor número de genomas para poder interpretar correctamente el significado de estas diferencias. El último bloque de experimentos incluidos en este estudio tuvo como principal motivación explorar la utilidad potencial de la metodología propuesta para analizar procesos de divergencia adaptativa entre organismos próximos. En este caso, nuestro estudio se centró en la discriminación de genomas mitocondriales porque el número de organismos secuenciados es notablemente mayor que el de genomas nucleares: actualmente 8753 genomas completos. Otra diferencia básica con los experimentos anteriores es que en este caso el análisis se realizó sobre series temporales de densidad de pares CGs. Los resultados de estos experimentos nos han permitido, en el primer caso, predecir tres posibles migraciones de tres subespecies del chimpancé común y en el segundo caso, clasificar perfectamente cinco especies de la superfamilia/suborden Caniformia. Bibliography 1. Stuart Kauffman. At Home in the Universe: The Search for the Laws of Self-Organization and Complexity. Oxford University Press, 1996. ISBN 978-0-19-976185-2. 2. Jan Walleczek, editor. Self-Organized Biological Dynamics and Nonlinear Control. Cambridge University Press, 2000. ISBN 978-0-521-62436-7. 3. D.S. Stoffer, D.E. Tyler, A.J. McDougall, and G.A. Schachtel. Spectral analysis of DNA sequences. Bull. Int. Stat. INst., (Bk 1, 345-361;Bk 4, 63-69), 1993. 4. Serge Muyldermans and Andrew A. Travers. DNA Sequence Organization in Chromatosomes. Journal of Molecular Biology, 235(3):855–870, 1994. 5. J. Maddox. Long-range correlations within DNA. Nature, 358(6382):103, July 1992. ISSN 0028-0836. doi: 10.1038/358103a0. 6. T. Subba Rao and Calyampudi Radhakrishna Rao. Time Series Analysis: Methods and Applications. Elsevier, 2012. ISBN 978-0-444-53858-1. 7. Reka Albert, Hawoong Jeong, and Albert-Laszlo Barabasi. Error and attack tolerance of complex networks : Article : Nature. Nature, 406(6794):378– 382, 2000. 8. Albert-László Barabási, Zoltán N. Oltvai, and Stefan Wuchty. Characteristics of Biological Networks. In Eli Ben-Naim, Hans Frauenfelder, and Zoltan Toroczkai, editors, Complex Networks, number 650 in Lecture Notes in Physics, pages 443–457. Springer Berlin Heidelberg, 2004. ISBN 978-3- 540-22354-2 978-3-540-44485-5. 9. Andre S. Ribeiro and Stuart A. Kauffman. Noisy attractors and ergodic sets in models of gene regulatory networks. Journal of Theoretical Biology, 247(4):743–755, 2007. 10. P Erdös and A Rényi. On random graphs, I. Publicationes Mathematicae (Debrecen), 6:290–297, 1959. 11. P. Erdös and A. Rényi. On the evolution of random graphs. Magyar Tud. Akad. Mat. Kutató Int. Közl., 5:17–61, 1960. 12. Clara Frontali and Elisabetta Pizzi. Similarity in oligonucleotide usage in introns and intergenic regions contributes to long-range correlation in the Caenorhabditis elegans genome. Gene, 232(1):87–95, 1999. 13. Andrew P. Feinberg and Bert Vogelstein. Hypomethylation distinguishes genes of some human cancers from their normal counterparts. Nature, 301 (5895):89–92, 1983. 14. E. D. Schwab and K. J. Pienta. Cancer as a complex adaptive system. Medical Hypotheses, 47(3):235–241, 1996. 15. P. C. Nowell. The clonal evolution of tumor cell populations. Science, 194 (4260):23–28, 1976. 16. J.-P Eckmann, S. Oliffson Kamphorst, and D Ruelle. Recurrence Plots of Dynamical Systems. Europhysics Letters (EPL), 4(9):973–977, 1987. 17. David Ruelle and Floris Takens. On the nature of turbulence. Communications in Mathematical Physics, 20(3):167–192, 1971. 18. Floris Takens. Detecting strange attractors in turbulence. In David Rand and Lai-Sang Young, editors, Dynamical Systems and Turbulence, Warwick 1980, number 898 in Lecture Notes in Mathematics, pages 366–381. Springer Berlin Heidelberg, 1981. ISBN 978-3-540-11171-9 978-3-540- 38945-3. 19. Poincaré, Henri. Sur le problème des trois corps et les équations de la dynamique. Acta mathematica, 13, 1890. 20. L. Alaoglu and G. Birkhoff. General ergodic theorems. Annals of Mathematics. Second Series, 41:293–309, 1940. 21. R. Serra, M. Villani, A. Barbieri, S. A. Kauffman, and A. Colacci. On the dynamics of random Boolean networks subject to noise: Attractors, ergodic sets and cell types. Journal of Theoretical Biology, 265(2):185–193, 2010. 22. Michael G. Sadovskz and Ksenia A. Nikitina. Very Low Ergodicity of Real Genomes. Journal of Siberian Federal University. Mathematics & Physics, 7(4):530–532, 2014. 23. G. Nicolis and Ilya Prigogine. Exploring Complexity: An Introduction. W.H. Freeman, 1989. ISBN 978-0-7167-1859-8. 24. Ilya Prigogine and Isabelle Stengers. Order Out of Chaos: Man’s New Dialogue with Nature. Flamingo, 1985. ISBN 978-0-00-654115-8. 25. Ilya Prigogine. From Being to Becoming: Time and Complexity in the Physical Sciences. W. H. Freeman, 1980. ISBN 978-0-7167-1108-7.