Unifying methodologies for graphical models with Gaussian parametrization
- Córdoba Sánchez, Irene
- Pedro Larrañaga Múgica Director/a
- Concha Bielza Lozoya Codirector/a
Universidad de defensa: Universidad Politécnica de Madrid
Fecha de defensa: 04 de diciembre de 2020
- Serafín Moral Callejón Presidente
- Juan Antonio Fernández del Pozo de Salamanca Secretario/a
- José Manuel Peña Palomar Vocal
- Antonio Salmerón Cerdán Vocal
- Robert Castelo Valdueza Vocal
Tipo: Tesis
Resumen
Los modelos gráficos representan independencias condicionales de una distribución multivariante mediante aristas ausentes en un grafo, que tı́picamente es dirigido, no dirigido o mixto. Esta modelización compacta permite descomponer la inferencia estadı́stica en computaciones eficientes sobre el correspondiente grafo. Es por ello que los modelos gráficos se originaron en la intersección entre la estadı́stica y la inteligencia artificial, siendo las redes de Markov (grafo no dirigido) y las redes Bayesianas (grafo dirigido acı́clico) los representantes clásicos. Hoy en dı́a los modelos gráficos se aplican extensamente y una cantidad significativa de investigación se dedica a ellos, incluyendo las clásicas redes de Markov y Bayesianas. Las redes de Markov Gaussianas y las redes Bayesianas Gaussianas, a pesar de no ser modelos equivalentes, comparten una intersección común consistente en los grafos cordales (o grafos dirigidos acı́clicos sin v-estructuras). Un método habitual para la selección del modelo en ambas clases es el contraste de hipótesis, y supone la selección del grafo que parametriza el modelo. Las aristas ausentes en ambos modelos se representan mediante un patrón de ceros en la matriz inversa de covarianza o de correlación parcial (redes de Markov Gaussianas) o en su descomposición de Cholesky (redes Bayesianas Gaussianas). Después, sus parámetros son estimados por máxima verosimilitud. Como alternativa, existen en el estado del arte métodos de regularización para ambas clases de modelos, que simultáneamente realizan la selección y estimación del modelo. Un método popular para la selección del modelo mediante contraste de hipótesis es el algoritmo PC, que se puede aplicar tanto para redes de Markov Gaussianas como para redes Bayesianas Gaussianas. Este método depende fundamentalmente de dos parámetros: el tipo de test estadı́stico y el nivel de significatividad al que se contrastan las hipótesis. Sin embargo, el enfoque actual en la literatura es usar un test Gaussiano para una transformación de la correlación parcial, y una búsqueda en rejilla para su nivel de significatividad. Por contra, cuando se usa un procedimiento automático para afinar los parámetros, como la optimización Bayesiana, se muestra cómo se mejora significativamente el rendimiento de la selección del modelo cuando se emplea un test no usado habitualmente en la literatura. Es más, estos procedimientos automáticos de afinación de parámetros permiten seleccionar un nivel de significatividad optimizado para cada tipo de test. A la validación de metodologı́as para selección de modelos gráficos Gaussianos le afecta profundamente, además de cómo se hace la afinación de parámetros, cómo se simulan los modelos de test sintéticos. Se puede mostrar que las metodologı́as que tratan esta tarea en el estado del arte, tanto para redes de Markov Gaussianas como para redes Bayesianas Gaussianas, están sesgadas hacia ciertas regiones, influenciando ası́ significativamente sobre los resultados de validación. Serı́a por tanto deseable disponer de un proceso para muestrear uniformemente modelos gráficos Gaussianos. En concreto, las redes Bayesianas Gaussianas y las redes de Markov Gaussianas están ı́ntimamente relacionadas con la matriz de correlación parcial, por lo que métodos de muestreo uniforme de dicho conjunto, llamado elliptope, pueden ser un punto de partida. Se propone un nuevo método tipo Metrópolis para muestrar uniformemente del elliptope, extensible de manera directa a modelos gráficos Gaussianos cordales. Sin embargo, en el caso general, se debe usar un método de ortogonalización parcial para las redes de Markov Gaussianas, y no queda garantizado que los resultados sean uniformes. Pese a esta dificultad, se muestra cómo constituye una metodologı́a de simulación alternativa de modelos gráficos Gaussianos que ilustra cómo resultan profundamente afectados los resultados de validación, y por tanto cómo los experimentos de simulación se deben examinar cuidadosamente, si no se usa muestreo uniforme. Finalmente, ya se ha mencionado que el grafo asociado tanto con las redes Bayesianas Gaussianas como con las redes de Markov Gaussianas está codificado directamente en la matriz de correlación parcial o de covarianza inversa, o en su descomposición de Cholesky. Otro modelo gráfico Gaussiano, el grafo de covarianza, se puede leer del patrón de ceros en una matriz de covarianza. Sin embargo, no exiten trabajos en la literatura que propongan un modelo gráfico Gaussiano sobre el factor de Cholesky de una matriz de covarianza. Se muestra cómo este modelo es un análogo de la red Bayesiana Gaussiana, de la misma manera que un grafo de covarianza lo es de una red de Markov Gaussiana. Cuando las variables siguen un orden conocido, este nuevo modelo gráfico Gaussiano se puede estimar fácilmente como una factorización de la matriz de covarianza restringida a tener muchos ceros. Esto ya se ha tratado en la literatura, pero solamente mediante una transformación del modelo a regresión. Este vacı́o puede llenarse usando un enfoque de pérdida matricial regularizada que penaliza directamente la función de verosimilitud, u otras funciones de pérdida de interés. Se muestra cómo este modelo de aprendizaje produce una mejor recuperación del patrón de ceros ası́ como resultados competitivos en escenarios reales.