Clasificación del cáncer de próstata por medio de inteligencia artificial Explicable a partir de datos de expresión génica

  1. Ramírez Mena, Alberto
Dirigida por:
  1. Jesús Alcalá Fernández Codirector
  2. Luis Javier Martínez González Codirector

Universidad de defensa: Universidad de Granada

Fecha de defensa: 26 de octubre de 2023

Tipo: Tesis

Resumen

El cáncer de próstata (CP) es una de las formas de cáncer más prevalente entre los hombres de todo el mundo. Actualmente, las estrategias de cribado en el CP se centran habitualmente en la medición de los niveles del antígeno prostático específico (PSA) en sangre, la combinación de diferentes imágenes obtenidas mediante resonancia magnética y el examen rectal digital. Sin embargo, el nivel de PSA en sangre es específico de la próstata, pero no necesariamente del cáncer y puede elevarse por diversos motivos, como por ejemplo la hiperplasia prostática benigna. Por otro lado, la precisión de los análisis por imagen están muy condicionados por la pericia y experiencia del radiólogo que los evalúa, lo que limita su uso y hace necesaria la utilización de métodos más objetivos, específicos y precisos. El diagnóstico del CP se realiza mediante la punción-biopsia transrectal guiada por ultrasonidos (TRUS) o la biopsia fusión, que aúna las imágenes de la resonancia magnética (RMN) prostática y de la ecografía. Sin embargo, aunque las biopsias guiadas por técnicas de imagen incrementan el éxito en el diagnóstico de la enfermedad, causan a menudo molestias severas a los pacientes. Por todo lo expuesto con anterioridad, para comprender la patogénesis y mejorar el diagnóstico de la enfermedad es clave la integración de datos ómicos con datos clínicos, haciendo efectiva la traslación de este conocimiento a a la práctica clínica. Dentro de los datos ómicos, los procedentes del ARN se encuentran entre los más interesantes, ya que es el componente más dinámico entre las ómicas y contiene una gran cantidad de información, que no suele aprovecharse para su uso en el diagnóstico del CP. Sin embargo, el potencial y la capacidad de la transcriptómica para representar el estado fisiológico de un paciente en un momento dado ya se está utilizando en el diagnóstico de otras enfermedades, por lo que la aplicación de la transcriptómica para la estratificación de pacientes de CP en entornos clínicos es prometedora. Muchos estudios relacionados con el CP se centran en el análisis de las vesículas extracelulares, miARN libres o, como en el caso de otros tumores, marcadores específicos de genes como moléculas de ARNm circulantes. También se han identificado varios marcadores genéticos de susceptibilidad para el CP utilizando distintos enfoques, sin embargo, debido a la heterogeneidad de esta enfermedad, solo unos pocos de estos marcadores se han asociado de forma sólida con el CP. Además, todos los marcadores genéticos identificados están implicados en el desarrollo del tumor o son biomarcadores de un mayor riesgo de CP hereditario, pero no se ha descrito ningún gen para el diagnóstico o cribado del CP, por lo que la identificación de nuevos biomarcadores en fases tempranas de la enfermedad que permitan una mejor detección y clasificación del CP sigue siendo un reto para los investigadores. Recientemente, las técnicas de Machine Learning (ML) han demostrado su eficacia en la mejora de la predicción y el diagnóstico del CP, debido a su capacidad para proporcionar automáticamente modelos predictivos precisos a partir de grandes cantidades de datos que pueden utilizarse para construir sistemas de ayuda a la toma de decisiones clínicas (CDSS), lo que puede servir de ayuda a los especialistas para diagnosticar o detectar la enfermedad antes y con mayor precisión. Sin embargo, los enormes avances en el campo del ML han provocado una ola de preocupación, ya que en la mayoría de los casos los científicos no comprenden cómo los algoritmos aprenden de forma automática a partir de los datos ni cómo toman las decisiones. Por ello, la Comisión Europea ha propuesto un proyecto de ley para la Inteligencia Artificial (IA) y ha establecido las llamadas Ethics Guidelines for Trustworthy AI para promover el desarrollo de una IA fiable que sea legal, lícita y robusta, lo que es especialmente importante en ámbitos de especial sensibilidad como la salud y el cáncer, donde las decisiones basadas en este tipo de sistemas pueden tener un impacto significativo en la vida de las personas. Debido a ello, el objetivo general de esta tesis consiste en diseñar y desarrollar un CDSS capaz de predecir el CP en base a la expresión de tejido procedente de este órgano a partir de datos de pacientes con CP y controles sanos, para posteriormente desvelar sus mecanismos de predicción con objeto de obtener biomarcadores biológicamente relevantes que puedan estar relacionados con la enfermedad. Para ello, en primer lugar se ha realizado una selección y filtrado de genes de acuerdo a su relevancia biológica en el CP con base en su expresión diferencial, su ontología genética y la información disponible en la literatura científica. Los genes seleccionados fueron utilizados para desarrollar varios CDSSs a partir de la información de expresión génica en 550 muestras incluidas en The Cancer Genome Atlas y haciendo uso de técnicas de la IA explicable, obteniendo modelos fácilmente entendibles por los humanos y/o proporcionando explicaciones de cómo el modelo realiza sus predicciones y de qué características está considerando. Hay que destacar que este enfoque facilita la detección y prevención de posibles sesgos y discriminaciones en los modelos, ya que permite una mayor visibilidad y control sobre cómo se toman las decisiones. Los CDSSs generados obtuvieron un buen comportamiento en diversas métricas de calidad, por lo que el CDSS con mejor comportamiento fue además validado en cuatro poblaciones externas con diversidad de ascendencia étnica, sumando un total de 463 muestras y obteniendo valores medios de sensibilidad y especificidad de 0,9 y 0,8. Por último, se extrajeron del CDSS con mejor comportamiento un conjunto de explicaciones aditivas de Shapley para ayudar a los profesionales clínicos a comprender las razones subyacentes a cada decisión. Dichas explicaciones permitieron entender cómo el CDSS hace uso de una serie de genes que han sido relacionados en la literatura con el CP, aunque nunca para su cribado, tales como DLX1, MYL9 y FGFR, así como de otros nuevos que no habían sido descritos previamente, como es el caso de CAV2 y MYLK. Al mismo tiempo pudimos detectar el papel fundamental de algunos genes no tan relevantes en términos absolutos pero con cierta influencia para algunos individuos, genes nunca antes relacionados con el cáncer o la función prostática, tales como RNF112, APOF o MYOCD, entre otros. Las explicaciones extraídas del CDSS propuesto en este trabajo son consistentes entre sí y con la literatura, abriendo un horizonte para su aplicación en la práctica clínica. La Fig. 1 muestra una visión gráfica general del proceso de construcción del CDSS. Con el objetivo de demostrar la viabilidad de la aplicación del CDSS a la práctica clínica, realizamos finalmente un análisis sobre muestras de distinto tipo (biopsia fresca, biopsia para nada y plasma) procedentes de una cohorte de pacientes del Servicio Andaluz de Salud a la que nuestro grupo de investigación hace un seguimiento. Validamos con éxito su rendimiento en muestras locales de biopsia fresca y biopsia para nada, y conseguimos demostrar que los genes DLX1, TDRD1, AMACR, HPN, HOXC6 y OR51E2 tienen una expresión diferencial mayor en tejido con CP respecto al sano. Además, conseguimos demostrar que la expresión del gen AMACR tiene capacidad para predecir la agresividad del CP. En el caso del análisis de expresión en plasma, el comportamiento del modelo se vio afectado debido a que muchos de los genes carecían de expresión cuantificable en este medio. Aún así, los resultados obtenidos son esperanzadores y abren una línea de trabajo futura muy interesante para adaptar el diseño realizado en esta tesis a este tipo de muestras.