Descriptores estadísticos aplicados al análisis de escenas naturales bajo diferentes condiciones de iluminación

  1. Ojeda García, Juan
Dirigida por:
  1. Francisco Javier Romero Mora Codirector
  2. Juan L. Nieves Codirector

Universidad de defensa: Universidad de Granada

Fecha de defensa: 27 de enero de 2023

Tribunal:
  1. Javier Hernández-Andrés Presidente
  2. Ana Yebra Rodriguez Secretaria
  3. Francisco Jose Heredia Mira Vocal
  4. Inmaculada Pascual Villalobos Vocal
  5. Pedro José Pardo Fernández Vocal

Tipo: Tesis

Resumen

Justificación y objetivos. El proceso evolutivo del sistema visual humano (SVH) debe entenderse como una adaptación para procesar eficientemente los estímulos recibidos del entorno (las imágenes naturales). La estrecha conexión establecida entre el diseño del sistema visual de un organismo y las propiedades del entorno físico en el que este desarrolla su actividad no pudo cuantificarse hasta que F. Attneave [Att54] basándose en la teoría de la información de C.E. Shannon y W. Weaver [Sha49] estableció que la finalidad del SVH era la de producir una representación eficiente de la señal entrante, de manera que, en las primeras etapas del sistema visual se recodificaban las señales de entrada para reducir la estructura redundante de las imágenes naturales. En este trabajo, el estudio de esta conexión se ha realizado modelando el procesamiento sensorial temprano a partir del estudio de algún descriptor estadístico de las entradas visuales y de las transformaciones que lo optimizan, puesto que, para tener en cuenta la relación probabilística entre los estímulos visuales y las tareas que se van a realizar, las fluctuaciones cuánticas inherentes a la absorción de la luz y la naturaleza ruidosa de los procesos químicos neuronales es la caracterización en términos estadísticos la más adecuada de dichos estímulos [Gei08] . La redundancia de las imágenes naturales presenta correlaciones que pueden ser de primer orden (valores de intensidad parecidos localmente), de segundo orden (bordes orientados) o de orden superior (texturas homogéneas) [Dau89] los descriptores estadísticos pueden clasificarse también en dichos ordenes atendiendo al número de píxeles que se relacionan (píxeles individuales, pares de píxeles y grupos de más de dos píxeles). El primer objetivo de este trabajo ha sido la sistematización del cálculo de los diferentes estadísticos de primer, segundo y orden superior asociados a la estructura espacio-cromática de un mismo conjunto de imágenes naturales en color y sus implicaciones en los modelos del sistema visual temprano. En su adaptación al entorno, el SVH proporciona una percepción estable del color, independientemente de los cambios, tanto locales como globales, de la luz día que ocurren en las imágenes naturales [Fos11]. Dado que la señal de color que caracteriza la luz que entra en el ojo, depende tanto de la reflectancia espectral de los objetos como de la distribución de potencia espectral (SPD) de la luz que los ilumina, es posible plantearse cómo la visión del color, a partir de las regularidades que presenta la estructura espacio-cromática de las imágenes naturales, puede mostrar cierta dependencia con las diferentes condiciones de iluminación bajo las que se observe una escena. El segundo objetivo de esta investigación ha sido el estudio de la influencia en los diferentes estadísticos de la SPD de la luz día caracterizada por su temperatura correlacionada de color (CCT). La diversidad cromática de una imagen suele venir cuantificada por el número de colores discernibles (NDC) definido como el número de cubos unidad distinguibles en un espacio de color que contienen al menos un píxel [Poi98, Mar07] pudiendo tomar valores desde los pocos miles hasta los dos millones (para valores teóricos) [Lin08, Mas13]. En la práctica, cuando vemos imágenes naturales de entornos humanos o incluso obras pictóricas, nos centramos en una pequeña fracción del gran número potencial de colores discernibles, aunque todavía no se ha establecido una relación entre la totalidad de ellos y los colores que atraen realmente la atención del observador. Se consideran salientes aquellos puntos de una escena en los que un observador centrará su atención por diferir de sus vecinos en ciertas características como bordes, contrastes, luminancia o color. En una propuesta en la que no es necesario introducir categorías de color predefinidas ni determinar qué áreas son visualmente salientes en la escena, Nieves et al. [Nie20] establecen el concepto de colores relevantes, definido como los colores discernibles categóricos que describen la diversidad cromática de una obra pictórica basándose en el contenido colorimétrico de cada imagen. El último objetivo de este trabajo trata de analizar con más profundidad la relación entre la diversidad cromática de una escena y las potenciales regiones de fijación visual de un observador que la estuviera mirando. Para ello se analizará desde un punto de vista heurístico el descriptor número de colores relevantes (NRC) en distintos conjuntos de imágenes naturales y su relación con la codificación eficiente de la información por parte del sistema visual humano. Metodología. En el presente trabajo se han usado 600 imágenes en color procedentes de la base de datos Scene UNderstanding (SUN) [Xia10] del MIT clasificadas en doce categorías semánticas (de 50 imágenes cada una) dependiendo del contenido de las imágenes y agrupadas a su vez en dos categorías generales [Ros76] llamadas imágenes rurales y de entornos humanos. Una vez seleccionadas, las imágenes fueron recortadas a un tamaño de 400x 400 píxeles y guardadas como imágenes RGB de 8 bits por canal en formato jpeg. Finalmente, para aprovechar la propiedad de los espacios de color uniformes en que las propiedades cromáticas del entorno se corresponden con las de su representación visual [McD12], las imágenes fueron transformadas al espacio cromático CIELAB [Ruz20] usando como punto blanco el correspondiente al iluminante D65. Para analizar las propiedades estadísticas de las imágenes naturales se aplica a un conjunto de las mismas una transformación particular que suele corresponderse con una componente, factor o propiedad relacionados con la visión humana [Fie87]. En particular en este trabajo se estudiaron los siguientes estadísticos asociados a la estructura espacio-cromática de un mismo conjunto de imágenes naturales en color y sus implicaciones en los modelos del sistema visual temprano: Primer orden: Primer y segundo momento de las distribuciones y descriptores de la diversidad cromática: gama y volumen de color y número de colores discernibles (NDC). Segundo orden: Gradientes entre píxeles adyacentes, pendientes y firmas espectrales entre cualquier par de píxeles de la imagen y análisis de componentes principales (PCA) de trozos de 8x8 píxeles. Orden superior (de imágenes blanqueadas, es decir, decorrelacionadas con media 0 y varianza 1): Asimetría, curtosis, análisis de componentes independientes (ICA) de trozos de imágenes de 8x8 píxeles e índice de agrupamiento (PI) El color de los objetos viene caracterizado por la llamada señal de color, que es el producto de la reflectancia espectral en cada punto de los mismos por la SPD de la iluminación bajo la que se observan. Para estudiar la influencia del iluminante en la estadística de las imágenes naturales, cada imagen RGB fue normalizada al rango (0,1) y sus valores triestímulo CIE calculados y simulados bajo un conjunto de 108 SPDs caracterizadas por sus respectivas CCTs en el rango de longitud de onda 400–700 nm. La simulación fue hecha usando el algoritmo de adaptación cromática de Bradford [Süs00]. Para la distribución de potencia espectral (SPD de la fuente de iluminación se utilizaron los datos que Hernández-Andrés et al. obtuvieron para la luz día hemisférica bajo diferentes condiciones atmosférias, a lo largo de dos años en Granada, en un rango de CCTs desde 3766 K hasta los 25889 K [Her01] y para las de las luces día con CCTs inferiores a 3766 K se simularon con SBDART [Pey16, Ric98]. Finalmente, las imágenes simuladas bajo los diferentes iluminantes se transformaron al espacio de color CIELAB para aplicarles nuevamente los diferentes estadísticos estudiados en las imágenes originales. Por último, para tratar de analizar con más profundidad la relación entre la diversidad cromática de una escena ampliamos a escenas naturales el estudio del algoritmo computacional de cálculo de colores relevantes que Nieves et al. [Nie20] definieron para imágenes pictóricas. Tras analizar los valores de los parámetros utilizados en el algoritmo para los que el número de colores relevantes muestra menor dependencia de los mismos, calculamos el número de colores relevantes a dos conjuntos de imágenes naturales diferentes (el que hemos utilizado en los capítulos anteriores del presente trabajo y el de la base de datos de McGill [Olm04]) comparando los resultados entre ellas así como con los de imágenes pictóricas del trabajo originario de Nieves et al. [Nie20]. Finalmente, analizamos si los colores relevantes seleccionados por el algoritmo de las escenas naturales siguen una codificación eficiente de las mismas al corresponderse o no sus direcciones en el plano cromático (de ejes RG y BY) al de las características de las componentes independientes al aplicar ICA a trozos de nuestro conjunto de imágenes. Conclusiones. De la sistematización de los descriptores estadísticos aplicados a nuestro conjunto de imágenes obtuvimos la comprobación de resultados previos como: • La “suposición del mundo gris” [Pit 38]. • Un NDC que tiene el mismo orden de magnitud comprendido entre 21400 y 54100 colores parecido al obtenido en trabajos de otros autores [Mar10], • El decaimiento de la potencia espectral con la frecuencia espacial según una ley potencial de exponente próximo a -2 (entre -2,16 y -2,67 en nuestro caso) [Fie87, Bur87, Tol92, Rud94] y una distribución no isotrópica según la orientación, • La aplicación del PCA para reducir la redundancia de las imágenes proporciona en tres espacios de color (LMS, RGB y CIELAB) tres ejes principales próximos a las funciones luminancia y cromáticas oponentes [Buc83, Rud98, Sim01] • La aplicación del PCA a trozos de imágenes, para obtener información de la estructura espacio-cromática, se obtenían una serie de componentes principales que pueden clasificarse en tres categorías principales (Fígura5.14): componentes homogéneamente cromáticas (de mayor varianza, sin estructura espacial y altamente selectivas a un color) , acromáticas (que codifican las variaciones de luminancia) y color oponentes (que presentan la menor varianza y decrecen desde las componentes BY a las RG [Kel13], con cromaticidades alineadas mayoritariamente con los mecanismos de oposición de color). • A la vista de la representación de los histogramas conjuntos de los gradientes en los distintos planos (L*,a* y b*) de cada escena, como aproximación a la densidad de probabilidad conjunta, así como de la información mutua entre los bordes de cada pareja de canales (comprendida entre 0,003 y 0,391 bits) hay un grado sustancial de independencia (aunque no completa) entre bordes cromáticos y de luminancia en escenas naturales y, por tanto, proporcionan fuentes independientes de información [Geg00]. • Las características obtenidas al aplicar ICA se corresponden con señales máximamente independientes que separan la información en luminancia (o detectores de bordes de luminancia) y en información cromática color oponente (detectores de bordes de color no ortogonales) presentando distribuciones dispersas lo que constituye una codificación altamente eficiente. [Tai00, Lee02] y que proporcionan filtros que se asemejan mucho espacialmente a los campos receptivos de las células oponentes simples orientadas, encontradas en el córtex visual de los mamíferos ya que están espacialmente localizados, orientados y constituyen un filtro paso banda a diferentes bandas de frecuencias espaciales [Bel97, vHa98, Lew99]. • El índice de agrupamiento [Yoo08], muestra que los planos cromáticos de las imágenes contienen más áreas uniformes que el plano de luminancia, como cabía esperar dado que las diferencias cromáticas se deben a las propiedades de los objetos mientras que las diferencias en luminancia no provienen solamente de las diferencias de los materiales y sus reflectancias sino de la iluminación no homogénea característica de las imágenes naturales [Rub82, Tap02, Olm04 ]. A continuación, describimos los aspectos comunes o mayoritarios que los descriptores estadísticos de los distintos órdenes analizados muestran con la variación de la SPD de la luz día caracterizada por su CCT. • Todos los descriptores presentan un comportamiento asintótico horizontal para CCTs superiores a 15000K. • Para los iluminantes del espectro caracterizados por las menores temperaturas de color es para los que se producen las mayores variaciones de los descriptores con la CCT no debiéndose a la utilización de dos conjuntos de datos para caracterizar la SPD de la luz día. • En caso de no ser estrictamente monótonas presentan un extremo relativo en el intervalo de CCTs 3900 K-9600K. Estos máximos o mínimos locales pueden estar relacionados con otros índices de reproducción [Guo04] basados en supuestos perceptivos y en datos psicofísicos [Ma13]. • El análisis del grado de dependencia de los distintos descriptores estadísticos con la CCT del iluminante muestra que L* es el que menos presenta pudiendo considerarse en muchos de ellos estadísticamente independiente de la misma. De los dos canales cromáticos a* y b*, es siempre este último el que muestra una mayor sensibilidad a las variaciones del iluminante. • Los valores medios de descriptores volumen de color, número de colores discernibles e índice de agrupamiento para los distintos iluminantes pueden considerarse significativamente iguales desde un punto de vista estadístico lo que podría deberse al proceso de adaptación cromática de las primeras etapas involucradas en el fenómeno de la constancia de color. Al analizar desde un punto de vista heurístico la relación entre la diversidad cromática de una escena y las potenciales regiones de fijación visual de un observador que la estuviera mirando con el descriptor NRC en distintos conjuntos de imágenes naturales obtuvimos un valor del descriptor entre 15 y 19, prácticamente iguales a los obtenidos en trabajos previos al aplicar el algoritmo a obras pictóricas [Nie20, Nie21]. Además, las gamas de colores obtenidas a partir de los mismos para los dos conjuntos de imágenes analizados son semejantes (siendo menor en las imágenes rurales). Para ver si los colores relevantes seleccionados por el algoritmo seguían una codificación eficiente se compararon las direcciones de color de estos y los colores de las funciones base resultantes de aplicar ICA. Los histogramas conjuntos normalizados de los ángulos de ambas variables, aunque presentan una buena correspondencia para la dirección vertical (90º) en todos los casos, muestran diferencias entre las direcciones de los colores relevantes y las direcciones preferidas por las funciones base del ICA para ángulos pequeños. Estos resultados no nos permiten confirmar que los colores relevantes obtenidos por el algoritmo sigan una codificación eficiente. Queda para trabajos posteriores la realización de un experimento psicofísico similar al de Nieves et al [Nie21] en el que se determinaran los colores relevantes de imágenes naturales y una revisión del algoritmo de selección de los mismos siempre que se confirmara una codificación eficiente de los colores relevantes señalados por los observadores en dicho experimento, lo que podría utilizarse para el reconocimiento de patrones cromáticos o para reducir los procesos de inferencia de aprendizaje profundo necesarios en los procesos de visión computacional integrados en la inteligencia artificial. Bibliografía. [Att54] F. Attneave, “Some informational aspects of visual perception”, Psychological Review 61, 183 – 193 (1954). [Bel97] A. J. Bell y T. J. Sejnowski, “The ‘Independent Components’ of Scenes are Edge Filters”, Vision Research 37, 3327-3338 (1997). [Buc83] G. Buchsbaum y A. Gottschalk, “Trichromacy, opponent colour coding and optimum colour information transmission in the retina”, Proceedings of the Royal Society of London B 220, 89 – 113 (1983). [Bur87] G. J. Burton y I. R. Moorehead, “Color and spatial structure in natural scenes”, Applied Optics 26, 157-170 (1987). [Dau89] J. G. Daugman, “Entropy reduction and decorrelation in visual coding by oriented neural receptive fields”, IEEE Transactions on Biomedical Engineering 36,107 – 114 (1989). [Fie87] D.J.Field, “Relations between the statistics of natural images and the response properties of cortical cells”, Journal of the Optical Society of America A 4, 2379-2394 (1987). [Fos11] D. H. Foster, “Color constancy”, Vision Research 51, 674–700 (2011). [Geg00] K.R. Gegenfurtner y J. Rieger, “Sensory and cognitive contributions of color to the recognition of natural scenes”, Current Biology 10, 805–808 (2000). [Gei08] W.S. Geisler, “Visual Perception and the Statistical Properties of Natural Scenes”, Annual Review of Psychology 59, 167–192 (2008). [Guo04] X. Guo y K. W. Houser, “A review of colour rendering indices and their application to commercial light sources”, Lighting Research and Technology 36, 183–199 (2004). [Her01] J. Hernández-Andrés, J. Romero, J. L. Nieves, y R. L. Lee, Jr., “Color and spectral analysis of daylight in southern Europe”, Journal of the Optical Society of America A 18, 1325–1335 (2001). [Kel13] C. J. Kellner y T. Wachtler, “A distributed code for color in natural scenes derived from center-surround filtered cone signals”, Frontiers in Psychology 4, 1-11 (2013). [Lee02] T-W. Lee, T. Wachtler y T.J. Sejnowski, “Color opponency is an efficient representation of spectral properties in natural scenes”, Vision Research 42, 2095–2103 (2002). [Lew99] M.S. Lewicki y B.A. Olshausen, “A probabilistic framework for the adaptation and comparison of image codes”, Journal of the Optical Society of America A: Optics, Image Science, and Vision 16, 1587–1601 (1999). [Lin08] J.M. Linhares, P.D. Pinto y S. M. Nascimento, “The number of discernible colors in natural scenes”, Journal of the Optical Society of America A 25, 2918–2924 (2008). [Mar10] I. Marin-Franch y D. H. Foster, “Number of perceptually distinct surface colors in natural scenes”, Journal of Vision 10 (9) : 9, 1-7 (2010). [Mar07] F. Martínez-Verdu, E. Perales, E. Chorro, D. de Fez, V. Viqueira y E. Gilabert, “Computation and visualization of the MacAdam limits for any lightness, hue angle and light source”, Journal of the Optical Society of America A 24, 1501–1515 (2007). [Mas13] K. Masaoka, R. S. Berns, M. D. Fairchild y F. M. Abed, “Number of discernible object colors is a conundrum”, Journal of the Optical Society of America A 30, 264–277 (2013). [Ma13] O. Masuda y S. M. C. Nascimento, “Best lighting for naturalness and preference”, Journal of Vision 13 (7) : 4, 1–14 (2013). [McD12] K. C. McDermott y M. A. Webster, “Uniform color spaces and natural image statistics”, Journal of the Optical Society of America A 29, 182–187 (2012). [Nie20] J. L. Nieves, L. Gomez-Robledo, Yu-Jung Chen y J. Romero, ”Computing the relevant colors that describe the color palette of paintings”, Applied Optics 59, 1732-1740 (2020). [Nie21] J.L. Nieves, J. Ojeda, L. Gómez‐Robledo y J. Romero, “Psychophysical Determination of the Relevant Colours That Describe the Colour Palette of Paintings”, Journal of Imaging, 7(4), 72. (2021). [Olm04] A. Olmos y F. A. A. Kingdom, “A biologically inspired algorithm for the recovery of shading and reflectance images”, Perception 33, 1463-1473 (2004). [Pey16] S. Peyvandi, J. Hernández-Andrés, F. J. Olmo, J. L. Nieves y J. Romero, “Colorimetric analysis of outdoor illumination across varieties of atmospheric conditions”, Journal of the Optical Society of America A 33, 1049-1059 (2016). [Pit38] F H G Pitt y E W H Selwyn, “Colour of outdoor photographic objects”, The Photographic Journal 78, 115–121 (1938). [Poi98] M. R. Pointer y G. G. Attridge, “The number of discernible colours”, Color Research and Application 23, 52–54 (1998). [Ric98] P. Ricchiazzi, S. Yang, C. Gautier y D. Sowle, “SBDART: a research and teaching software tool for plane-parallel radiative transfer in the earth’s atmosphere”, Bulletin of the American Meteorological Society 79, 2101–2114 (1998). [Ros76] E. Rosch, C. B. Mervis, W. D. Gray, W. D. Johnsosn y P. Boyes-Braem, “Basic objects in natural categories”, Cognitive Psychology 8, 382-439 (1976). [Rub82] J. M. Rubin y W. A. Richards, “Color vision and image intensities: when are changes material?” Biological Cybernetics 45, 215–226 (1982). [Rud94] D. L. Ruderman y W. Bialek, “Statistics of natural images: scaling in the woods”, Physical Review Letters 73: 814–817 (1994). [Rud98] D.L. Ruderman, T.W. Cronin y C-C Chiao, “Statistics of cone responses to natural images: implications for visual coding”, Journal of the Optical Society of America A 15, 2036-2045 (1998). [Ruz20] M. Ruzon (2020). https://es.mathworks.com/matlabcentral/fileexchange/24009-rgb2lab [Sha49] C.E. Shannon y W. Weaver, “The mathematical theory of communication”, University of Illinois Press (1949). [Sim01] E.P. Simoncelli y B.A. Olshausen, “Natural image statistics and neural representation”, Annual Review of Neuroscience. 24, 1193–1216 (2001). [Süs00] S. Süsstrunk, J. Holm y G. D. Finlayson, “Chromatic adaptation performance of different RGB sensors”, Proceedings of SPIE Color Imaging 4300, 172–183 (2000). [Tai00] D.R. Tailor, L.H. Finkel y G. Buchsbaum, “Color-opponent receptive fields derived from independent component analysis of natural images”, Vision Research 40, 2671-2676 (2000). [Tap02] M. F. Tappen, W. T. Freeman y E. H. Adelson, “Recovering intrinsic images from a single image”, Advances in Neural Information Processing Systems 15, 1459–1472 (2002). [Tol92] D. J. Tolhurst, Y. Tadmor y Tang Chao, “Amplitude spectra of natural images”, Ophthalmic and Physiological Optics 12, 229-232 (1992). [vHa92] J.H. van Hateren, “A theory of maximizing sensory information”, Biological Cybernetics 68, 23–29 (1992). [Xia10] J. Xiao, J. Hays, K. Ehinger, A. Oliva y A. Torralba, “SUN database: large-scale scene recognition from Abbey to Zoo”, Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 3485-3492 (2010). [Yoo08].-Yoonessi, F. A. A. Kingdom, y S. Alqawlaq, “Is color patchy?”, Journal of the Optical Society of America A 25, 1330–1338 (2008).