Understanding clinical narratives in oncological domain

  1. Najafabadipour, Marjan
Dirigida por:
  1. Ernestina Menasalvas Director/a

Universidad de defensa: Universidad Politécnica de Madrid

Fecha de defensa: 18 de enero de 2021

Tribunal:
  1. María Covadonga Fernández Baizán Presidente/a
  2. Alejandro RODRÍGUEZ GONZALEZ Secretario/a
  3. Pedro Alexandre Sousa Vocal
  4. María Amparo Vila Miranda Vocal
  5. Cristóbal Romero Morales Vocal

Tipo: Tesis

Resumen

La generación de datos digitales ha aumentado rápidamente en el siglo XXI con la explosión de datos generados por la industria de la salud. La generación de datos está creciendo dramáticamente como resultado de la inserción de la historia clínica digital (HCE). La HCE está generando bases de datos enriquecidas, que contienen una gran cantidad de datos clínicos sobre la atención médica del paciente. Transformar los datos clínicos de la HCE en conocimiento para mejorar la atención del paciente ha sido el objetivo de los profesionales de la informática biomédica durante décadas. Sin embargo, esto sigue siendo una tarea desafiante debido entre otros a: i) la imitación de la capacidad de procesamiento; ii) exactitud e integridad de los registros; iii) interoperabilidad y falta de estandarización; iii) coste; iv) temas relacionados con la seguridad y privacidad; y v) por la incapacidad para extraer información de los datos no estructurados en particular los datos en lenguaje natural que contiene la HCE. La recuperación de información textual de narrativas clínicas es una tarea difícil debido en primer lugar a la limitación de las ontologías y diccionarios para cubrir todos los conceptos médicos que se pueden mencionar en las notas clínicas. En segundo lugar, la extracción de expresiones de tiempo almacenadas en la HCE también es un reto debido a la presencia de varias categorías, formatos y estilos cuando expresamos expresiones temporales en lenguaje natural. Por otra parte, la existencia de abreviaturas; menciones de expresión temporal ambiguas generan incertidumbre para la interpretación de expresiones de tiempo en lenguaje natural. Por último, la manera en la que están escritas las notas clínicas con estructuras gramaticales que a menudo no son las tradinionales complica la interpretación de las expresiones de tiempo en textos médicos. En el dominio oncológico, y en particular si nos referimos al cáncer de pulmón, que es el que tiene mayor tasa de prevalencia y mortalidad en todo el mundo, la explotación de los datos almacenados en los HCE podría conducir a una mejor comprensión de la enfermedad y a proporcionar respuestas sobre el tratamiento y sus resultados. Sin embargo, el tratamiento del cáncer de pulmón no solo depende de la condición actual de un paciente, sino de todo su historial médico anterior. Por lo tanto, es muy útil para los médicos tener un conocimiento completo de la historia natural del paciente, que incluye desde antes del diagnóstico de la enfermedad así como, su progresión. El proceso de reconstruir la historia natural de un paciente a partir de la HCE requiere de la identificación de varios elementos clave, como conceptos médicos, expresiones de tiempo y relaciones temporales entre los conceptos encontrados. Motivados por todos estos desafíos, esta tesis se enfoca en el análisis de información textual en español de la HCE con el objetivo final de reconstruir la historia natural del paciente oncologico. Por tanto, en esta Tesis proponemos un conjunto de anotadores de procesamiento de lenguaje natural (NLP) basados en reglas para extraer conceptos de cáncer de pulmón. En particular: estadio, mutaciones, Performance Status. Por otra parte, se desarrolla un anotador temporal basado en reglas para el reconocimiento y normalización de expresiones temporales. Para terminar se presenta un sistema de razonamiento temporal para encontrar relaciones temporales entre conceptos médicos y las expresiones temporales mediante la implementación de reglas heurísticas y técnicas de análisis de dependencias. La tesis presenta la validación de los módulos presentados en un caso de estudio real en el que se analizan mas de 300k notas de pacientes que han sido diagnosticados con cancer de pulmón.