Imágenes milimétricas pasivas: procesamiento y mejora para la detección de amenazas

Serra Pérez, Juan Gabriel

Imágenes milimétricas pasivasprocesamiento y mejora para la detección de amenazas

Serra Pérez, Juan Gabriel

Dirigida por:

Aggelos K. Katsaggelos Director/a
Rafael Molina Soriano Director

Universidad de defensa: Universidad de Granada

Fecha de defensa: 18 de junio de 2019

Tribunal:

Valeriana Naranjo Ornedo Presidente/a
Miguel Vega López Secretario/a
Adrián Colomer Granero Vocal
Pablo Ruiz Matarán Vocal
Mari Luz García Martínez Vocal

Departamento:

CIENCIAS DE LA COMPUTACIÓN E INTELIGENCIA ARTIFICIAL

Tipo: Tesis

Teseo: 595695 DIALNET DIGIBUG editor

Resumen

Introducción Las ondas milimétricas son capaces de atravesar los tejidos, permitiendo la localización de objetos ocultos bajo la ropa. Los sistemas de detección basados en tecnología milimétrica resultan de gran utilidad en aplicaciones de seguridad y han sido objeto de investigación reciente. Este capítulo se centra en el estudio de las imágenes milimétricas pasivas, la naturaleza de su formación y las degradaciones presentes en ellas. A la vista de estas degradaciones, principalmente, datos perdidos en la adquisición, alto nivel de ruido y desenfoque de las imágenes y, previo estudio de los trabajos de la literatura sobre detección de amenazas en este tipo de imágenes, la presente tesis propone el procesamiento de las imágenes con el fin de mejorar los resultados de detección. Motivación La radiación milimétrica, es decir, la debida a las ondas en el rango de frecuencias 30-300 GHz 1-10 mm de longitud de onda), se ha convertido en una prometedora herramienta para sistemas de seguridad en aeropuertos y otras instalaciones con trasiego continuo de usuarios como estaciones de tren, metro o instalaciones gubernamentales [1], motivando una ingente cantidad de trabajos de investigación e ingeniería. La utilidad de estas ondas para la detección de amenazas radica en su capacidad de atravesar tejidos como la ropa, revelando así diversos objetos potencialmente peligrosos que pudieran haber sido ocultados bajo esta. La radiación milimétrica se encuentra de forma natural en el ambiente y es debida a la temperatura de los cuerpos. Un estudio de las diferentes contribuciones con objetos de distintos materiales [2] apunta, entre otras conclusiones, que para que el objeto sea distinguible del cuerpo la temperatura ambiente ha de ser preferentemente baja (fría). Además, la diferencia de temperatura de radiación efectiva entre cuerpo y objetos metálicos es la más pronunciada (en comparación con plásticos y materiales cerámicos), haciendo que estos sean más fáciles de detectar. Las cámaras milimétricas que captan esta radiación natural procedente de los objetos, ya sea emitida por ellos, o simplemente reflejada, reciben el calificativo de pasivas. En contraposición, los sistemas de captación activos emiten pulsos de radiación milimétrica que serán reflejados por los objetos dando lugar a imágenes de mayor relación señal a ruido, llegando a suponer una invasión a la privacidad de los sujetos. La radiación milimétrica no es ionizante, por lo que no supone un riesgo para la salud de los sujetos escaneados en ninguno de los casos. Podemos encontrar también sistemas de detección basados en rayos X. Al contrario que los equipos médicos basados en esta tecnología, la interacción con la piel es mínima, con niveles de radiación por debajo de los umbrales establecidos por las organizaciones de salud pertinentes. No obstante, al igual que los sistemas activos de ondas milimétricas, estos escáneres son controvertidos por su invasión de privacidad. Véase el interesante estudio sobre privacidad y efectos en la salud de ambos sistemas en [3]. Detección de amenazas en PMMWI Las condiciones no óptimas de captación de las señales, junto a la baja relación señal a ruido inherente a los sistemas pasivos provocan una baja calidad en las imágenes formadas, complicando sobremanera las tareas de detección de amenazas. Además de estos problemas, las imágenes milimétricas pasivas presentan una baja resolución, alta variabilidad espacial de intensidad de señal. La diversidad de las potenciales amenazas en cuanto a tamaño, forma, posición y propiedades de transmisión complican aún más el problema. En consecuencia, los sistemas de detección presentan una alta tasa de errores, ya sea por incapacidad de detectar ciertas amenazas, verdaderos positivos, o por identificar como tales a regiones de la imagen que realmente no lo son, falsos positivos, ocasionando que dichos sistemas presenten una utilidad reducida. Idealmente, los sistemas de detección de amenazas han de ser capaces de detectar todas las amenazas presentes en las imágenes, presentando, a su vez, un muy bajo, o nulo, número de falsos positivos por imagen y, además, han de funcionar en tiempo real. En la literatura podemos encontrar diferentes aproximaciones a la detección de amenazas en imágenes milimétricas pasivas como se explica en [4,5]. Por ejemplo, en [6] se utiliza $K$-medias junto con Active Shape Models para la segmentación de las imágenes en tres regiones correspondientes al fondo, cuerpo del sujeto escaneado y objeto. Sin embargo, la segmentación no siempre es correcta. En un trabajo posterior [7], se utilizan modelos de mezclas de gaussianas para caracterizar las mismas tres regiones mejorando sus resultados previos. Martínez et. al. [8] utilizan métodos de eliminación de ruido previos a la segmentación mediante Local Binary Fitting. A pesar de obtener buenos resultados de detección, al menos para imágenes de calidad media/alta, el algoritmo no es apto para aplicaciones en tiempo real. En [9] se propone una detección basada en una segmentación global y otra local mediante mezcla de gaussianas en imágenes milimétricas tomadas en exteriores. No obstante, el método fue testeado con una base de datos muy limitada en cuanto a número de imágenes y tipos de amenazas. Posteriormente, en [10] se utiliza la misma segmentación pero inicializando los parámetros de la mezcla con un K-medias. Gómez et. al. proponen un algoritmo eficiente basado en eliminación de ruido y morfología matemática. Encontramos también trabajos dedicados a la identificación de amenazas concretas, como pistolas o armas de filo, eso sí, por supuesto, esto solo es posible utilizando imágenes milimétricas activas. Por ejemplo, en [11] los autores utilizan una combinación de técnicas con este propósito: SVD para la reducción de artefactos/ruido, transformada Wawelet para mejorar la resolución, umbralización para la localización de objetivos y, por último, una red neuronal para una identificación invariante a rotaciones. Otro trabajo en esta línea [12] utiliza PCA para eliminar la varianza de escala y rotación y un clasificador con dos capas para distinguir entre amenazas y objetos corrientes. Finalmente, los trabajos de S. López-Tapia et. al. [4,5] abordan el problema de detección de amenazas como un problema de clasificación binaria. El primero de ellos aborda el problema mediante la eliminación de ruido y posterior extracción de características. Para la clasificación se estudian múltiples clasificadores, siendo Random Forest el que mejores resultados obtiene. No obstante, los resultados obtenidos presentan un número elevado de falsos positivos en algunos de los casos. El segundo de los trabajos [5] propone utilizar una red convolucional con estructura de autoencoder para la detección. En este caso, se alcanza una clasificación perfecta con una cantidad insignificante de falsos positivos pero concluyen que el uso de preprocesamiento, el mismo que se utiliza en [4], no mejora en ningún caso los resultados de detección. Serán estos dos métodos los que se aplicarán sobre imágenes milimétricas para confirmar una mejora sustancial en la detección tras aplicar los métodos de preprocesamiento propuestos. En esta tesis estudiaremos métodos de procesamiento y mejora de las imágenes para ayudar a la detección en imágenes milimétricas pasivas, no buscando una segmentación, sino, directamente, la localización de amenazas. Degradaciones en imágenes milimétricas En este trabajo nos centraremos en las imágenes milimétricas pasivas. Estas imágenes presentan degradaciones intrínsecas debidas al proceso de captación. Son habituales las cámaras milimétricas que realizan un escaneo por barrido; estas cámaras generan una señal intermedia, a partir de la cual, mediante una transformación adecuada, se formará la propia imagen milimétrica. Las imágenes intermedias adquiridas presentan datos perdidos debidos al propio sistema de captación por fallos electrónicos, mecánicos y/o físicos. Resultará vital para la formación de la imagen final la recomposición de los datos perdidos. Este problema, habitualmente conocido como inpainting, puede ser abordado también mediante el uso de diccionarios. Por otro lado, debido a la poca intensidad de radiación natural presente en las escenas y condiciones de temperatura no ideales, las imágenes captadas presentarán altos niveles de ruido. En segundo lugar, fallos en el sistema de captación pueden provocar la pérdida de datos en las imágenes y, por último, el movimiento del sujeto durante la captación supone un riesgo de emborronamiento en la imagen captada. El ruido en imágenes se debe principalmente a los sistemas de captación o cámaras que toman las imágenes y, en menor medida, al proceso de conversión analógico-digital (ruido de cuantización). El ruido inherente a la cámara tiene un carácter aleatorio sin correlación espacial y puede modelarse como un proceso aditivo. Esta degradación suele deberse a los sensores y demás componentes electrónicos del sistema de captación. Adicionalmente, la correcta iluminación (En el caso de las imágenes milimétricas una correcta iluminación no consiste en la presencia de luz de suficiente intensidad, sino a unas condiciones adecuadas de temperatura ambiente.) de la escena tiene también un papel importante en la presencia de ruido. El proceso de eliminación del ruido de las imágenes para obtener la imagen limpia subyacente suele referirse en la literatura mediante su denominación en inglés, denoising. Existen multitud de técnicas de denoising en la literatura. Estas dependen en gran medida del modelo de ruido considerado o, en otras palabras, la distribución de probabilidad asumida para modelarlo. En este trabajo utilizaremos el aprendizaje basado en diccionarios como técnica de eliminación de ruido y asumiremos una distribución gaussiana de media nula sobre el mismo. Nótese, no obstante, que el ruido presente en estas imágenes es no estacionario, utilizándose el modelo gaussiano como una simplificación. En este trabajo desarrollamos una técnica Bayesiana totalmente automática para la estimación de diccionarios. Para la modelización de las señales sparse se utiliza una distribución \apr jerárquica equivalente a la distribución laplaciana pero que posibilita el uso de la inferencia variacional bayesiana. Las estimaciones son más precisas que las producidas por algoritmos deterministas como \cite{aharon2006svd} y la inferencia variacional presentada es más eficiente que la basada en Markov Chain Monte Carlo, usa, p. ej., en \cite{Zhou2012}. %En segundo lugar es importante considerar la presencia de datos perdidos en las imágenes. %Hay diferentes causas de esta degradación. %Fallos electrónicos, mecánicos o físicos en los sistemas de adquisición pueden ocasionar la perdida de píxeles o ráfagas de píxeles sueltos en posiciones aleatorias. %\rer{Yo este problema no lo pondría aquí, de momento estás centrado en las milimétricas, esto no excluye que hables de él en el capítulo correspondiente}{Otras causas incluyen la presencia de texto superpuesto a imágenes o las marcas producidas por pliegue o arrugado de fotografías escaneadas. En este caso, las zonas perdidas son más conexas. %{\color{Red}imagen?} Este problema, habitualmente conocido como \textit{inpainting}, puede ser abordado también mediante el uso de diccionarios.} Las imágenes presentan adicionalmente una degradación exclusiva inherente debida al tiempo de adquisición de las muestras. El movimiento no controlado del sensor durante la adquisición o el del objeto captado provocan distorsiones en las imágenes, haciendo que el valor en un píxel sea una suma de contribuciones correspondiente no a un única dirección en el espacio, sino a un rango continuo de direcciones, provocando emborronamiento en la imagen. Formalmente, es posible modelar esta degradación mediante la convolución \begin{equation} \by = \bh \ast \bx \end{equation} de la imagen nítida $\bx$ con un filtro $\bh$ que modelará el movimiento de la cámara y/o objeto. El problema de la estimación de la imagen nítida sin conocimiento previo del filtro de emborronamiento recibe el nombre de deconvolución \textquote{ciega} de imágenes. El trabajo propuesto en esta tesis presenta un modelado bayesiano del problema que permite imponer conocimiento previo sobre las características de la solución, trabajando en el dominio filtrado. Se utiliza la distribución \apr \sns junto a un esquema de inferencia variacional EM ( \cite{lazaro-gredilla:2011}) por primera vez en la literatura del campo de la deconvolución ciega. Nótese que es habitual encontrar más de una de estas degradaciones actuando simultáneamente sobre las imágenes. Concretamente consideraremos los problemas de \textit{inpainting} y deconvolución en presencia de ruido. \section{Objetivos y estructura de la tesis} El objetivo principal de la tesis será, pues, el desarrollo de técnicas de preprocesamiento de imágenes con el fin de mejorar la precisión de los clasificadores y, con ello, la tasa de acierto en la detección de amenazas en imágenes milimétricas pasivas. La consecución de este objetivo se aborda mediante el cumplimiento de los siguientes objetivos parciales más específicos: \begin{itemize} \item Estudio de las técnicas de preprocesamiento de imágenes susceptibles de resultar en una potencial mejora en la calidad de las imágenes milimétricas. Concretamente, \textit{denoising}, \textit{inpainting} y deconvolución ciega. \item Utilización del paradigma bayesiano para la modelización de estos problemas. \item Estudio y aplicación de distribuciones \textit{a priori} \spans. Principalmente, las distribuciones normal, laplaciana, mezcla infinita de gaussianas y \textit{Spike-and-Slab}. \item Estudio y desarrollo de técnicas bayesianas de aprendizaje de diccionarios con \apr \spans. \item Estudio de diccionarios \spa para el problema de aprendizaje de diccionarios bayesiano. \item Estudio del efecto del uso de distribuciones \apo laplacianas en el problema de codificación \spans. \item Aplicación de las técnicas basadas en diccionarios desarrolladas para los problemas de \textit{denoising} e \textit{inpainting}. \item Desarrollo de una técnica para la estimación del emborronamiento en imágenes mediante inferencia variacional y \apr \textit{Spike-and-Slab}. \item Diseño de un método completo de deconvolución ciega haciendo uso de la estimación del emborronamiento desarrollada. \item Aplicación de las técnicas de preprocesamiento diseñadas sobre imágenes milimétricas para cuantificar su influencia sobre la tesa de detección. \end{itemize} Los objetivos marcados conducen, de manera natural, a la siguiente estructura de la memoria. En el capítulo $1$ se presenta el problema de detección de objetos/amenazas en imágenes, exponiendo las diversas degradaciones de las imágenes que afectan directamente a su rendimiento, motivando así la necesidad de preprocesamiento de estas. El capítulo $2$ está dedicado a los problemas de \textit{denoising} e \textit{inpainting} dado que ambos pueden abordarse mediante la representación \spa de las imágenes en base a diccionarios. Se expone la modelización bayesiana del problema de aprendizaje de diccionarios clásico, y una modificación con diccionarios que serán, a su vez, \spans. Además, se describirá la inferencia variacional bayesiana utilizada para la estimación de las diferentes variables latentes y parámetros del problema. Ambos problemas comparten una misma modelización e inferencia de las señales \spans; el capítulo finaliza con la propuesta preliminar de una nueva modelización para estas señales, imponiendo una distribución \apo laplaciana sobre ellas. A continuación, el capítulo $3$ se centra en el problema de deconvolución ciega imágenes. En él, se propone una técnica de estimación del emborronamiento mediante el uso de la \apr \sns para modelar el conocimiento previo sobre las imágenes nítidas. En este caso, desarrollamos un método de inferencia variacional EM. El último capítulo teórico de la memoria, cap. $4$, está enfocado a la aplicación práctica de los métodos desarrollados a las imágenes milimétricas. Se utilizarán dos metodologías de detección diferentes sobre las imágenes preprocesadas utilizando los métodos de \textit{inpainting}, eliminación de ruido y deconvolución vistos en los dos capítulos previos y analizando las ganancias producidas por este preprocesamiento. El capítulo $5$ enumera las conclusiones finales de la tesis y expone una serie de posibles vías futuras de investigación y, finalmente, la tesis concluye con la bibliografía consultada para la elaboración de este trabajo. \section{Conclusiones} La tesis ha abordado la detección de amenazas en imágenes milimétricas poniendo el foco en el preprocesamiento de las imágenes captadas dada su baja calidad. Concretamente, se han tratado los modelos que permiten abordar los problemas de \textit{inpainting}, eliminación de ruido y deconvolución ciega, mostrando que estos problemas admiten un modelado bayesiano, obteniendo soluciones robustas gracias a la inferencia variacional. Los dos primeros problemas se han resuelto en el marco del aprendizaje de diccionarios, desarrollando un esquema de inferencia bayesiano para el modelo clásico y el doblemente \spans, en el que se consideran diccionarios \spa a su vez. En segundo lugar, se ha propuesto un método de estimación del emborronamiento para un algoritmo de deconvolución ciega con el uso novel de la inferencia variacional EM para la distribución \sns en esta área. Por último, hemos aplicado los algoritmos desarrollados a una base de datos propia de imágenes milimétricas para comprobar su efecto en el proceso de detección de amenazas, utilizando dos clasificadores con filosofías de trabajo diferentes. Un primero basado en la metodología clásica de extracción de características y detección por ventana deslizante y, un segundo que hace uso de técnicas de aprendizaje profundo. A continuación presentamos las conclusiones específicas que extraemos de estos tres grandes bloques en los que se ha dividido la memoria. \subsection{\textit{Denoising} e \textit{Inpainting} mediante aprendizaje de diccionarios} \begin{itemize} \item En primer lugar se ha presentado el algoritmo BKSVD para resolver el problema de aprendizaje de diccionarios con norma $\ell_1$. La \apr impuesta sobre los vectores de coeficientes garantiza soluciones \spa permitiendo la inferencia variacional bayesiana. El uso de un marco bayesiano para la inferencia nos permite tener en cuenta la incertidumbre en las estimaciones para refinarlas. Este algoritmo es totalmente automático, estimando todas las variables, incluida la varianza de ruido, sin información adicional, más allá de las observaciones. \item Se ha aplicado el algoritmo a los problemas de eliminación de ruido e \textit{inpainting}, obteniendo resultados competentes. Sin embargo, el K-SVD tiene dos grandes inconvenientes: la necesidad de una estimación precisa de la varianza de ruido y del conocimiento previo del número de componentes no nulas de cada señal. Ambos inconvenientes son resueltos de manera eficaz y precisa en el algoritmo propuesto, pero a costa de un mayor coste computacional. Junto con el método propuesto, el algoritmo BFPA es el que mejores resultados obtiene, aunque las imágenes que obtiene presentan un mayor número de artefactos. \item El \textit{inpainting} se ha abordado de dos maneras diferentes. Es posible aprender un diccionario de mayor calidad utilizando una base de datos de imágenes limpias, resultando en mejores reconstrucciones pero, en caso de no disponer de este conjunto de datos modelo, también es posible aprender un diccionario a partir de datos corruptos: la propia imagen con datos perdidos. \item Los diccionarios aprendidos con BKSVD son mejores en términos de coherencia mutua, lo que resulta en una mayor calidad de las reconstrucciones, proporcionando soluciones \spa más óptimas. \item El tamaño preestablecido de los diccionarios influye en la calidad de las representaciones \spans. La estimación del tamaño óptimo no está integrada en la inferencia como variable del modelo, con lo que su estimación no es automática. \item Adicionalmente, se ha presentado un método de estimación de diccionarios \spa utilizando una modelización jerárquica análoga al BKSVD para los vectores de representación del diccionario. La principal ventaja frente a las técnicas doblemente \spa deterministas radica en nuestra capacidad para estimar automáticamente el ruido y el soporte de los vectores \spans, teniendo en cuenta las incertidumbres de las estimaciones y produciendo valores competitivos de PSNR y SSIM. El modelo presenta una formulación general que posibilita su uso no solo para \textit{denoising} e \textit{inpainting}, sino también para \textit{compressive sensing}. \item Por último, se ha demostrado la posibilidad de utilizar distribuciones \apo laplacianas sobre los vectores de coeficientes con \apr laplaciana, resultando en una inferencia tratable. \end{itemize} \subsection{Deconvolución ciega de imágenes} \begin{itemize} \item Se ha presentado un nuevo método de deconvolución ciega que trabaja en el dominio filtrado cuya principal aportación consiste en la introducción de la distribución \sns como \apr sobre las pseudoobervaciones obtenidas por filtrado paso alto de la imagen borrosa. \item La distribución \sns permite descartar píxeles poco relevantes y potencialmente perjudiciales para la estimación del emborronamiento. \item La inferencia variacional con esta \apr se hace posible gracias al uso de una potente a la vez que simple reparametrización. Además, la utilización de una adecuada factorización para la aproximación de la distribución \apo dota a la estimación de una mayor fidelidad a la \apo original de naturaleza multimodal. \item Se ha desarrollado un algoritmo variacional EM eficiente y preciso para la estimación de la PSF, estimando de manera automática todos los parámetros del modelo \apr dentro del mismo marco bayesiano. \item El estudio del comportamiento de la distribución \sns proporciona un conocimiento más profundo sobre la capacidad selección de píxeles relevantes de esta \aprns, la cual permite una estimación más precisa del emborronamiento. \item Los resultados experimentales muestran la competitividad del método, produciendo estimaciones de la PSF más precisas que resultan en un incremento de la PSNR media con una menor varianza, indicando la robustez del método. \item El método de deconvolución ciega presentado presenta un buena tolerancia al ruido en las imáges. \end{itemize} \subsection{Aplicación a imágenes milimétricas pasivas} \begin{itemize} \item En esta memoria se han empleado dos metodologías diferentes de abordar el problema de detección de objetos (amenazas) en imágenes. En primer lugar, siguiendo una metodología clásica, se han extraído bloques de las imágenes (ventana deslizante) y se han extraído diferentes características típicas, Haar y LBP, utilizando el método \textit{Random Forest} para la clasificación. En segundo lugar hemos utilizado una red neuronal profunda para la segmentación binaria de la imagen. \item Las imágenes captadas presentaban un patrón repetitivo de regiones no observadas debido a deficiencias en el sistema de captación. Por ello, el primer paso del preprocesamiento ha sido el completado de estas regiones de las imágenes mediante el método de \textit{inpainting} basado en BKSVD presentado en el capítulo \ref{cha:deninp}. Este paso resulta crucial sobre todo para la metodología basada en extracción de rasgos. \item La mejora en las imágenes producida por la deconvolución ciega depende en gran medida de la eliminación previa de ruido. Sin embargo, los artefactos producidos por el alto nivel de ruido no estacionario suelen limitar esta mejora. \item Los experimentos muestran una clara mejora en la tasa de detección tras aplicar la eliminación de ruido basada en BKSVD, siendo importante seleccionar adecuadamente los parámetro del método de \textit{denoising}. Sin embargo, el alto nivel de ruido en las imágenes, además de su carácter no gaussiano, limitan el rendimiento del algoritmo al usar un detector basado en extracción de rasgos. \item La metodología basada en una red convolucional produce resultados de detección ostensiblemente mejores, siendo estos adecuados para la implementación práctica del sistema. Para la metodología clásica, sería necesario un estudio más amplio de estrategias de extracción de rasgos para mejorar su rendimiento. \end{itemize}