Supervised-learning methods for pattern recognition in fmri data for the identification of informative brain regions in psychological contexts

Arco Martín, Juan Eloy

Supervised-learning methods for pattern recognition in fmri data for the identification of informative brain regions in psychological contexts

Arco Martín, Juan Eloy

Dirigida por:

María Ruz Cámara Directora
Javier Ramírez Pérez de Inestrosa Director

Universidad de defensa: Universidad de Granada

Fecha de defensa: 29 de marzo de 2019

Tribunal:

Diego Salas González Presidente
Ana B. Chica Secretaria
Pedro Manuel Paz Alonso Vocal
Andres Ortiz García Vocal
Marieke Mur Vocal

Departamento:

PSICOLOGÍA EXPERIMENTAL

Tipo: Tesis

Teseo: 587658 DIALNET DIGIBUG editor

Resumen

Motivación En los últimos años, el uso de la resonancia magnética funcional (RMf) ha aumentado de manera exponencial en el ámbito de la investigación en Neurociencia Cognitiva. Gracias a su precisión espacial, se ha convertido en una herramienta de gran utilidad para conocer en mayor profundidad el funcionamiento del cerebro humano. Esta técnica no invasiva ofrece una medida indirecta de los cambios producidos en la actividad neural en un contexto determinado, lo que permite estudiar la participación de diferentes regiones en determinadas funciones. La aproximación clásica para el análisis de este tipo de imágenes se conoce como análisis univariado. Esta técnica estudia la señal contenida en cada vóxel por separado, o bien la actividad promedio en una determinada región, y evalúa si existen diferencias entre dos condiciones experimentales (Friston et al., 1995; Worsley and Friston, 1995). Sin embargo, hay situaciones en las que aunque no haya diferencias en cada vóxel por separado, sí que las hay respecto a cómo se distribuye la actividad a través de los vóxeles. El análisis de patrones multivariados (MVPA, por sus siglas en inglés), es capaz de detectar estas diferencias, aumentando de manera notable la sensibilidad en comparación con los análisis clásicos. De hecho, esta aproximación permite descubrir diferencias tan sutiles que hasta entonces habían pasado totalmente desapercibidas (Haxby et al., 2001; Norman et al., 2006) empleando análisis univariados. Este tipo de técnicas, basadas en machine learning, ya se habían utilizado previamente en aplicaciones tan variadas como el pronóstico del tiempo (Krasnopolsky and Fox-Rabinovitz, 2006) o la predicción del desarrollo de la economía (Lin et al., 2012). También se habían usado en el análisis de imágenes de RM estructural como una herramienta automática para el diagnóstico de diferentes trastornos neurológicos y psiquiátricos (Adeli et al., 2017; Arco et al., 2015; Choi et al., 2017; Del Gaizo et al., 2017; Khedher et al., 2017; Plant et al., 2010; Salvatore et al., 2014). En este ámbito clínico, el principal objetivo es obtener un modelo que prediga con la precisión más alta si una persona padece una enfermedad o no. Sin embargo, en Neurociencia Cognitiva el principal objetivo es estudiar las diferentes funciones del cerebro humano. Esta es una tarea de gran complejidad, dado que las diferencias entre condiciones experimentales están en muchas ocasiones enmascaradas por neuronas con diferentes patrones de respuesta en el mismo vóxel. Una de las mayores dificultades en el análisis de imágenes de RMf viene dada por la lentitud de la señal BOLD (Blood-Oxygen-Level-Dependent, en inglés). Esta señal proporciona una medida indirecta de la actividad neuronal basada en la oxigenación de la sangre: cuando hay un aumento de la actividad neuronal, se consume más oxígeno. Esta señal alcanza su máximo entre 6 y 8 segundos después del inicio de la actividad neural, y tarda en torno a 16 segundos en volver a línea de base (Logothetis, 2003, 2004; Zaidi et al., 2018). Sin embargo, el tiempo entre los diferentes estímulos de un experimento psicológico, conocido como inter-stimulus-interval (ISI, por sus siglas en inglés), es normalmente mucho más corto que 16 segundos (González-García et al., 2017; Palenciano et al., 2018; Visconti di Oleggio Castello et al., 2017). Esto significa que la señal medida por el escáner de RM en cada instante no se debe a la actividad neural de un único estímulo, sino a una combinación de estímulos previos. Cuanto más corto sea este intervalo, más difícil será estimar de manera adecuada la contribución de cada estímulo a la señal hemodinámica y, por consiguiente, la posterior clasificación (Abdulrahman and Henson, 2016; Mumford et al., 2014; Turner et al., 2012). Dada la gran complejidad que esta clasificación entraña, los análisis se realizan de manera independiente para cada persona. En cambio, las diferencias se evalúan a nivel de grupo, con el objetivo de comprobar que los resultados obtenidos para cada sujeto son consistentes en toda la muestra. Para ello no es necesario que el clasificador alcance valores de precisión altos, sino que el promedio de esta difiera del azar de manera significativa. Los métodos paramétricos se han usado en cientos de estudios de RMf (Forman et al., 1995; Friston et al., 1994; Hayasaka and Nichols, 2003; Misaki et al., 2010; Woo et al., 2014). Sin embargo, recientemente se ha demostrado que su uso para evaluar la significatividad de la precisión de un clasificador puede no ser apropiado, ya que parten de ciertas asunciones que no siempre se cumplen (Eklund et al., 2016; Stelzer et al., 2013). Como alternativa a estos, los métodos no paramétricos basados en permutaciones calculan de manera empírica la distribución de los datos, en lugar de asumir que siguen una distribución Gaussiana. Esto permite que puedan potencialmente aumentar la sensibilidad de los análisis estadísticos controlando de una manera más fiable el número de falsos positivos (Smith and Nichols, 2009; Stelzer et al., 2013). Dada la gran relevancia que tiene la información espacial en Neurociencia Cognitiva, todo el sistema de clasificación debe orientarse al objetivo de la identificación de regiones informativas. Aunque un clasificador obtenga una precisión significativa, no es de mucha utilidad desde el punto de vista psicológico si no es capaz de proporcionar las regiones cerebrales de las que ha extraído dicha información. Por lo tanto, todas las etapas del sistema de clasificación deben preservar la información espacial, lo que limita enormemente las técnicas que pueden emplearse. Por ejemplo, en machine learning, es habitual emplear técnicas de extracción de características para la reducción de la dimensionalidad de los datos. Estos métodos emplean transformaciones geométricas desde el espacio original hasta un nuevo espacio transformado. A pesar de que pueden mejorar el rendimiento del clasificador, eliminan toda información espacial, por lo que su uso en contextos psicológicos debe hacerse junto a otro tipo de análisis que preserve dicha información. Objetivos El objetivo de esta tesis es comparar diferentes métodos en varias etapas del sistema de clasificación y proporcionar la solución que lleve a un mayor rendimiento en múltiples contextos: en escenarios complejos donde cada ensayo contiene varios eventos de diferente duración, en diseños de eventos con un intervalo de longitud intermedia entre lo diferentes ensayos, en diseños de bloques, etc. Para ello, se llevarán a cabo dos estudios principales con los siguientes propósitos: aislar de manera precisa la contribución de cada evento a la señal BOLD en cada uno de estos escenarios y desarrollar nuevos métodos de clasificación que proporcionen información adicional acerca de las regiones involucradas en un determinado proceso psicológico. De esta manera, podemos definir los siguientes objetivos: 1. Comparar el rendimiento de diferentes clasificadores y encontrar el que obtenga una mayor sensibilidad cuando el solapamiento entre eventos cercanos es mayor. 2. Evaluar diferentes métodos para una estimación óptima de los patrones de activación en los escenarios mencionados anteriormente. 3. Comparar diferentes métodos para la evaluación de la significatividad estadística en esos contextos, con el objetivo de controlar el número de falsos positivos ofreciendo simultáneamente la mayor sensibilidad posible. 4. Desarrollar nuevas estrategias que maximicen la detección de regiones cerebrales informativas, proporcionando nuevas perspectivas acerca de cómo se distribuye la información dentro de esas regiones. Para lograr todos estos objetivos, se han llevado a cabo los siguientes estudios: 1. Un análisis en profundidad del método de clasificación más común en imágenes de RMf: Searchlight (nombre original en inglés). Se ha evaluado la variabilidad de las regiones informativas dependiendo de diversos factores como la dimensionalidad de los datos de entrada, el algoritmo de clasificación utilizado y los hiperparámetros asociados al mismo. 2. La búsqueda de una estimación óptima de los patrones de activación. En concreto, se han usado tres alternativas. En la primera, todos los ensayos del mismo tipo pertenecientes al mismo run del experimento son colapsados en un único regresor. En el segundo, se utiliza un regresor diferente para cada ensayo. El último se basa en un proceso iterativo en la que la actividad debida a cada ensayo se estima en un modelo diferente. Cada modelo tiene dos regresores: uno para el ensayo objetivo y otro para el resto. 3. La comparación de tres métodos estadísticos (uno paramétrico y dos no paramétricos) para evaluar la significatividad de las precisiones resultantes del proceso de clasificación. 4. El desarrollo de distintos métodos de clasificación basados en atlas que proporcionan una medida alternativa del rendimiento del clasificador. Esta medida, basada en los pesos de un clasificador lineal, es mucho más informativa que la precisión desde el punto de vista de la Neurociencia Cognitiva. Resultados En primer lugar, nos centramos en el método de clasificación de imágenes de resonancia magnética funcional más utilizado en la actualidad. Esta alternativa, conocida como Searchlight, permite identificar con gran precisión las regiones involucradas en un determinado proceso. Nuestros resultados muestran que el rendimiento (medido en términos de precisión y número de vóxeles significativos) depende principalmente de dos factores: el tamaño del Searchlight y el algoritmo de clasificación. En primer lugar, conforme va aumentando el tamaño del Searchlight, también lo hace el número de vóxeles significativos. Sin embargo, a partir de un umbral determinado, la sensibilidad permanece estable, disminuyendo cuando el tamaño es demasiado grande. Por otro lado, la precisión permanece estable independientemente del tamaño del Searchlight. También evaluamos distintos algoritmos de clasificación, todos ellos basados en Support Vector Machines (máquinas de vectores de soporte, en español). Concretamente, utilizamos un kernel lineal, otros tres polinómicos (de segundo, tercer y cuarto grado) y un último basado en el kernel conocido como Radial Basis Function (RBF). Los resultados mostraron un rendimiento mucho mayor en el caso del algoritmo lineal. De hecho, fue el único capaz de encontrar diferencias significativas para todos los tamaños de Searchlight. El rendimiento de los kernels polinómicos dependía en gran medida del tamaño del Searchlight, mientras que el RBF no fue capaz de identificar ningún vóxel significativo para la gran mayoría de tamaños. Por último, en este capítulo estudiamos la influencia de los hiperpárametros del clasificador en el rendimiento del mismo. En general, aplicar una optimización de los mismos (proceso conocido como grid search, en inglés) no supuso una mejora ni en precisión ni en sensibilidad. Este hallazgo es muy importante ya que la búsqueda de la configuración óptima de un clasificador es un proceso muy costoso desde el punto de vista computacional. De hecho, el Searchlight también lo es, por lo que que es muy importante encontrar evidencia de que utilizando los parámetros por defecto es posible obtener un rendimiento considerable. Posteriormente, comparamos distintos métodos de estimación de patrones de activación en un contexto con gran colinearidad y solapamiento entre distintos regresores muy cercanos en el tiempo, lo que dificulta en gran medida la separabilidad. Además, también evaluamos el rendimiento de las diferentes alternativas en otros dos contextos con menor solapamiento: un diseño de bloques y un diseño de eventos con un intervalo mayor entre los ensayos. Nuestros resultados muestran que en el contexto más adverso solo un método consiguió llevar a cabo de manera exitosa una estimación de la señal. Esta aproximación, denominada Least-Squares Separate, estima un modelo lineal general (GLM, en inglés) de manera independiente para cada uno de los regresores del mismo, lo que permite un aumento considerable en la precisión de la estimación. En los otros dos escenarios, los demás métodos de estimación también son capaces de aislar la contribución de cada evento de manera satisfactoria, especialmente en el diseño de bloques, donde la colinearidad y el solapamiento son más bajos. También se evaluó hasta qué punto los métodos paramétricos son adecuados para evaluar la significatividad de las precisiones obtenidas por un clasificador. Estos métodos se basan en los llamados Random Field Theory, y asumen que las precisiones siguen una distribución Gaussiana. Por el contrario, los métodos no paramétricos no realizan ninguna asunción y calculan de manera empírica la distribución de las precisiones. Nuestros resultados muestran que los acercamientos no paramétricos permiten detectar información que de otra forma no superaría el umbral estadístico necesario para ser considerado como significativo. De hecho, en los contextos evaluados estos métodos consiguen un aumento considerable en la sensibilidad comparados con las técnicas paramétricas. Los resultados de los diferentes métodos basados en atlas propuestos como alternativa al Searchlight revelaron que no siempre se obtienen de manera simultánea una máxima precisión y detección de regiones informativas, especialmente cuando el objetivo es detectar diferencias muy sutiles. Esto quiere decir que un algoritmo puede obtener una precisión muy alta y que, sin embargo, no aporte ninguna información de utilidad que permita un mejor entendimiento del cerebro humano. Este es el caso de aquellos algoritmos que emplean la regularización L1, ya que un número elevado de regiones son automáticamente descartadas para la posterior clasificación debido a la naturaleza del propio algoritmo. En cambio, una regularización L2 ofrece unos resultados mucho más útiles para un contexto de identificación, a pesar de que en este caso la precisión sea menor. Los experimentos desarrollados permitieron observar que los algoritmos de clasificación propuestos presentan un buen rendimiento independientemente del atlas utilizado cuando las diferencias a nivel neural son grandes. Sin embargo, si las diferencias son muy sutiles, los atlas no son los suficientemente precisos para garantizar una buena identificación de las regiones que contienen información. Por último, un hallazgo muy interesante es que la precisión del clasificador puede no ser una medida óptima de la información contenida en una región cerebral. Los algoritmos propuestos en este capítulo emplean los pesos del clasificador en lugar de la precisión. Esto permite que los métodos obtengan una sensibilidad similar al Searchlight y una direccionalidad propia de los métodos univariados. Además, los pesos no solo ofrecen información acerca de la significatividad de un vóxel o región sino también de su importancia en la decisión llevada a cabo por el clasificador. Conclusiones Por último, resumimos las contribuciones de esta tesis en una serie de conclusiones: - Hemos propuesto diferentes métodos para mejorar el rendimiento de los análisis multivariados en imágenes de resonancia magnética funcional. Para ello, nos hemos centrado principalmente en tres aspectos. Primero, un análisis en profundidad del método de clasificación conocido como Searchlight, evaluando la influencia de diversos factores en el rendimiento del mismo. Segundo, una estimación óptima de los patrones de activación para calcular de manera precisa la contribución de cada estímulo a la respuesta hemodinámica. Tercero, un algoritmo de clasificación que permite identificar las regiones cerebrales que contienen información en un contexto donde las diferencias a nivel neural son muy pequeñas. Cuarto, un método adecuado para evaluar la significatividad estadística de las precisiones obtenidas por los algoritmos de clasificación. - El clasificador lineal propuesto en el Capítulo 5 muestra una gran robustez en la identificación de regiones informativas para un rango amplio de dimensionalidad en los datos de entrada. Sin embargo, el número de vóxeles significativos tiende a crecer conforme lo hace el tamaño del Searchlight, por lo que un tamaño de esfera demasiado grande puede sobreestimar el número real de vóxeles informativos. - La estimación iterativa del método empleado en el Capítulo 8 es capaz de aislar la contribución a la señal hemodinámica de eventos cercanos en el tiempo en un escenario con una alta superposición y colinearidad, donde las diferencias a nivel neural entre las distintas condiciones evaluadas eran muy sutiles. - Los métodos no paramétricos basados en tests de permutaciones producen una gran mejora en la sensibilidad en los contextos evaluados en la presente tesis, como queda reflejado en el Capítulo 8. La mejor estimación de los umbrales de significatividad permite identificar regiones informativas que con los métodos paramétricos no superarían dicho umbral. - Los métodos basados en atlas propuestos en el Capítulo 9 permiten una identificación precisa de las diferentes regiones informativas involucradas en la función cognitiva de interés. En concreto, proporcionan una sensibilidad similar a otras técnicas como el Searchlight, así como la direccionalidad de las técnicas univariadas tradicionales. Esta direccionalidad proporciona una información de gran utilidad ya que permite ordenar las regiones involucradas en un determinado contexto en función de su importancia en el proceso de clasificación. - Los resultados obtenidos en el Capítulo 9 evidencian que los atlas pueden ser de gran ayuda para identificar regiones informativas incluso cuando las parcelaciones cerebrales propuestas por dichos atlas no proporcionan una delimitación precisa. Sin embargo, en aquellos contextos donde las diferencias a nivel neural son muy sutiles, estos métodos no garantizan una localización correcta de la información. - La información espacial derivada de precisiones justo por encima del azar no debe ser rechazada siempre y cuando dichas precisiones sean significativas. Es de esperar encontrar valores de precisión altos en aquellos casos en los que el contraste evaluado genere unas diferencias perceptuales grandes. Si estas diferencias son mínimas, la precisión será baja. De hecho, incluso cuando otras medidas de respuestas electrofisiológicas evidencian la presencia de información, es posible que los análisis multivariados de imágenes de resonancia magnética no puedan clasificar por encima del azar debido a la forma en que las diferentes poblaciones neuronales subyacentes están representadas.