Modelos de mezcla de distribuciones alfa estables. Aplicación a micromatrices de expresión genética

Salas González, Diego

Modelos de mezcla de distribuciones alfa estables. Aplicación a micromatrices de expresión genética

Salas González, Diego

Dirigida por:

Diego Pablo Ruiz Padillo Director
María Carmen Carrión Pérez Directora

Universidad de defensa: Universidad de Granada

Fecha de defensa: 25 de julio de 2008

Tribunal:

Pedro Larrañaga Múgica Presidente/a
Juan Manuel Górriz Sáez Secretario
Davide Moroni Vocal
Joaquín Miguez Arenas Vocal
José Carlos Segura Luna Vocal

Departamento:

FÍSICA APLICADA

Tipo: Tesis

Teseo: 278204 DIALNET

Resumen

Esta Tesis Doctoral está organizada en dos grandes bloques, En el primero de ellos se desarrollan nuevos métodos estadísticos para el análisis de señales mediante un modelo Bayesiano de mezclas de distribuciones ¿-estables. La distribución ¿-estable engloba una familia de distribuciones impulsivas y asimétricas que contienen a la distribución Gaussiana como caso particular. Además, una variable aleatoria con distribución ¿-estable posee una serie de propiedades tales como la propiedad de estabilidad o el Teorema Fundamental del Límite Generalizado, que justifican el desarrollo de nuevas técnicas de modelado y estimación paramétrica usando este tipo de distribuciones. En la segunda parte de esta Tesis Doctoral, se aplican las propiedades de la distribución ¿-estable al estudio de la distribución de la expresión genética en micromatrices. Las micromatrices de ADN son un conjunto de celdas microscópicas de ADN. Cada una de estas celdas representa un gen determinado dispuesto en forma de matriz, es decir, formando distintas filas y columnas. Este dispositivo permite realizar medidas tanto cualitativas como cuantitativas de la expresión genética bajo distintas condiciones. Típicamente, los datos procedentes de micromatrices proporcionan información de la expresión de miles de genes simultáneamente. En el Capítulo 2 se presenta el modelo de mezclas de distribuciones ¿-estables simétricas. El problema provocado por la inexistencia de una expresión analítica para la pdf ¿-estable es solventado mediante el uso de la representación mediante mezcla escalada de distribuciones Normales. Esta representación es válida para varias familias de distribuciones subgaussianas y permite, mediante la introducción de una variable aleatoria auxiliar ¿ de dominio [0,+¿), escribir la pdf ¿-estable como una distribución condicionalmente Gaussiana. Por tanto, en el Capítulo 2 de esta Tesis Doctoral realizamos las siguientes aportaciones originales: * Proponemos por vez primera en la literatura un modelo de mezcla de distribuciones ¿-estables simétricas, que entre otras características, es una generalización del ampliamente estudiado modelo de mezclas de Gaussianas. * Usamos la representación mediante mezcla escalada de Gaussianas para obtener una expresión analítica de la función densidad de probabilidad ¿-estable simétrica. Esta representación, nunca había usada anteriormente en el contexto de la los modelos de mezcla. * El uso de la representación mediante mezcla escalada de Gaussianas de la distribución simétrica ¿-estable, nos permite escribir la función densidad de probabilidad ¿-estable simétrica como una distribución Normal, condicionada a la variable auxiliar ¿. Por tanto, aunque el algoritmo aquí propuesto resuelve el complejo modelo de mezclas ¿-estable simétricas, comparte la sencillez del modelo Bayesiano de mezcla de Gaussianas. Esto nos permite usar la distribución a priori conjugada y escribir una expresión analítica para las distribuciones a posteriori de algunos de los parámetros desconocidos del problema. * Resolvemos la estimación de parámetros mediante un planteamiento estrictamente Bayesiano del problema. Usando métodos de muestreo Monte Carlo como el algoritmo de muestreo por rechazo, muestreo de Gibbs y Metropolis. * En el contexto de mezcla de distribuciones ¿-estables, nunca con anterioridad se habían considerados métodos Monte Carlo de dimensión variable como el algoritmo Monte Carlo basado en cadenas de Markov con saltos reversibles (RJMCMC, por sus siglas en inglés). El cual nos permite calcular el número de componentes que componen la mezcla. * Al ser este modelo una generalización del modelo de mezclas de Gaussianas, el rango de aplicación de éste se extiende a multitud de distintas disciplinas y materias. Por otro lado, presenta una ventaja bastante importante respecto al modelo Gaussiano, ya que la mezcla de distribuciones ¿-estables permite, además, modelar datos cuya distribución es una mezcla de componentes impulsivos. * Este algoritmo es comparado con el modelo de mezcla Gaussiano. Se comprueba a partir del análisis de las simulaciones realizadas, que el modelo ¿-estable simétrico permite modelar datos como mezcla de distribuciones impulsivas de manera más compacta que lo hace la distribución Gaussiana ya que precisa un menor número de componentes. * Por otro lado, el modelo de mezcla ¿-estable simétrico demuestra funcionar muy bien y estimar correctamente todos los parámetros del modelo, incluso cuando los datos son mezcla de distribuciones Normales. No es posible decir lo mismo en el caso contrario, es decir, para un vector de datos mezcla de distribuciones ¿-estables simétricas. * El amplio rango de aplicación y distintas posibilidades que posee este modelo se demuestra mediante tres simulaciones con datos reales de disciplinas dispares como la biología, astrofísica y geología. En el Capítulo 3 se presenta el modelo de mezclas de distribuciones ¿-estables más general. El problema provocado por la inexistencia de una expresión analítica para la pdf ¿-estable es superado mediante la resolución numérica de la integral de la función característica ¿-estable. Este modelo, por lo tanto, además de ser una generalización del modelo de mezclas Gaussiano, es una generalización del modelo de mezcla ¿-estable simétrico presentado en el Capítulo 2. Algunas de las aportaciones del modelo Bayesiano de mezclas de distribuciones ¿-estable presentado con detalle en el Capítulo 3 de esta memoria son: * Proponemos por primera vez en la literatura un análisis Bayesiano del modelo de mezcla ¿-estable que permite la estimación de todos los parámetros del problema de manera exacta. * El modelo es una generalizaci'on de la mezcla de Gaussianas. En el caso en que los datos son mezcla de componentes impulsivos, la mezcla de Gaussianas no converge, mientras que nuestro modelo es robusto frente a señales impulsivas. * Por otro lado, en caso de datos impulsivos, la mezcla de ¿-estables requiere un menor número de componentes para ajustar la distribución de los datos que en el caso Gaussiano. * Al igual que en la aportación del Capítulo 2, en el modelo de mezcla ¿-estable más general, el número de componentes en la mezcla es calculado satisfactoriamente mediante técnicas Monte Carlo basadas en cadenas de Markov de dimensión variable, en concreto el algoritmo de saltos reversibles (RJMCMC, Reversible jump Markov chain Monte Carlo). Hasta la fecha, esta Tesis Doctoral presenta las dos únicas ocasiones en que este algoritmo se ha usado en el contexto de mezclas ¿-estables. * El algoritmo ha sido ampliamente comparado con el método propuesto por [Casarin, 2004], las ventajas del método presentado en esta memoria son claras: menor complejidad computacional debido a la integración numérica de la función característica de la distribución ¿-estable. El algoritmo es mucho más robusto y la convergencia del mismo no depende de los valores iniciales de los parámetros. * Del mismo modo que en el caso de la mezcla simétrica de distribuciones ¿-estable, hemos querido mostrar el amplio rango de aplicación de este algoritmo mediante el estudio de datos reales de diversas disciplinas, como la economía y la biología. En el capítulo 5, se propone un modelado de la distribución de la expresión de genes usando la distribución ¿-estable. Este modelado mejora a otros trabajos anteriores existentes en la literatura. Además, la distribución de la expresión de genes comparte propiedades empíricas con la distribución ¿-estable. Las principales aportaciones del Capítulo 5 de esta Tesis Doctoral son las siguientes: * En [Khondoker et al., 2006], se modela la distribución de la expresión de genes mediante distintas familias de distribuciones asimétricas. Finalmente, la distribución que ofrece mejor ajuste fue la distribución Pareto aunque para ello tuvo que introducirse un parámetro posición adicional para generalizar dicha distribución. La distribución ¿-estable ya cuenta con dicho parámetro posición y proporciona un buen ajuste tanto en el centro de la distribución como en las colas. Además, la distribución ¿-estable también posee comportamiento asintótico de tipo Pareto (ley de potencias) en las colas cuando ¿ < 2. * Mandelbrot hizo hincapié en los primeros trabajos de aplicación de la distribución ¿-estable, en el hecho de que el uso de dicha distribución para el estudio y descripción de datos biológicos era preferible al uso de distribuciones de tipo Zipf-Pareto debido a motivos tanto teóricos como prácticos. * La distribución ¿-estable permite el modelado de la distribución de la expresión de genes de manera más compacta, mediante el uso de una sola distribución. Al contrario de lo que sucede en [Hoyle et al., 2002], donde la aproximación se realiza mediante una distribución Log-normal en el centro de la distribución y una ley de potencias o ley Zipf en las colas. * Además, en [Hoyle et al., 2002], se apunta que la varianza de las intensidades logarítmicas aumenta conforme el número de genes estudiado aumenta. Este resultado está en completo acuerdo con las propiedades de la distribución ¿-estable. La varianza es un parámetro que no está definido para procesos estables con ¿ < 2. Tras la comparación tanto cualitativa como cuantitativa del ajuste proporcionado por la distribución ¿-estable con respecto a la distribución de Laplace Asimétrica estudiada en [Purdom & Holmes, 2005], se comprueba cómo la distribución de Laplace asimétrica no es capaz de ajustar siempre de manera satisfactoria la distribución de la expresión de genes. El histograma de intensidades de la expresión genética presenta, normalmente, un comportamiento más suave alrededor del máximo que la distribución de Laplace. En [Khondoker et al., 2006], la distribución de la expresión de genes se modela mediante una distribución de Cauchy. Nosotros, por otra parte, no asumimos que la distribución de la expresión de genes es Normal o Cauchy, pero ambas distribuciones son casos particulares de la distribución ¿-estable. El modelado de la distribución de la expresión de genes mediante la ¿-estable y los excelentes resultados obtenidos en el ajuste, son un primer acercamiento de esta distribución al estudio de los datos de micromatrices. Este estudio sirve, por ejemplo, de punto de partida para el diseño de un estadístico basado en las propiedades de la distribución ¿-estable que nos permite establecer un criterio sobre si un determinado gen está o no expresado. Los detalles sobre el diseño y funcionamiento de dicho estadístico se explican en el Capítulo 6. En el Capítulo 6 se presenta el diseño de un nuevo estadístico basado en la la distribución ¿-estable para indicar si un determinado gen está, o no, expresado. * El uso de la distribución ¿-estable para el modelado de la distribución de la expresión de genes está suficientemente motivado por el estudio detallado realizado en el Capítulo 5 de esta Tesis Doctoral, donde se comprobó que la distribución ¿-estable ajusta con gran exactitud la distribución de la expresión de genes, adem'as de compartir con ella algunas de sus propiedades más importantes. * El diseño de un estadístico mediante la suposición de que cada gen puede estar expresado o no, usando para ello un modelado matemático mediante mezcla de distribuciones, permite calcular la probabilidad de que un gen esté expresado sin la necesidad de calcular el valor P asociado a un resultado observado. Siendo el valor P la probabilidad de obtener un valor como el observado o más extremo si la hipótesis nula es cierta. * El uso de la distribución ¿-estable como parte del modelo de mezcla nos permite simplificar notablemente el problema de cálculo del estadístico debido al uso de diversas propiedades de esta distribución. Así, la estimación de parámetros de la distribución puede realizarse mediante multitud de técnicas existentes en la literatura. * Además, el modelo matemático se construye de manera relativamente simple, debido al uso de la distribución ¿-estable simétrica para modelar la distribución de la expresión de genes y a la representación mediante mezcla escalada de Gaussianas. * En el diseño del estadístico hay que resolver varias integrales numéricamente. Una vez más, las propiedades de la distribución ¿-estable proporcionan un modo muy sencillo para aproximar las integrales por sumatorias sin más que extraer muestras con distribución ¿-estable. * El uso de una distribución con gran peso en las colas como es la distribución ¿-estable, permite que las medidas tomadas para genes considerados por el modelo como no expresados tengan una mayor dispersión. Esto confiere al estadístico diseñado una ventaja sobre el uso de otros estadísticos basados en la distribución de Laplace y t-student en el caso en que los datos genéticos estudiados tengan una gran variabilidad entre las distintas repeticiones experimentales realizas en el laboratorio. * Para mostrar el funcionamiento del estadístico ¿-estable, éste ha sido probado con datos simulados y comparado con un trabajo previo similar basado en la distribución t-student [Lonnstedt & Speed, 2002].