Estudio comparativo completo de métodos basados en datos para la gestión de los recursos hídricos en ambientes mediterráneos a través de diferentes escalas temporales

  1. Gulliver Acevedo, Zacarías
Dirigida por:
  1. Javier Herrero Lantarón Director
  2. María José Polo Gómez Director/a

Universidad de defensa: Universidad de Córdoba (ESP)

Fecha de defensa: 19 de marzo de 2021

Tribunal:
  1. Cristina Aguilar Porro Presidente/a
  2. Manuel del Jesus Peñil Secretario/a
  3. Christiana Photiadou Vocal

Tipo: Tesis

Resumen

1. introducción o motivación de la tesis Desde el inicio de los tiempos, se innova en el conocimiento y la tecnología de los sistemas hídricos e hidráulicos con el fin de conseguir una eficiente y correcta gestión de los mismos. En este proyecto, como hipótesis de partida, se van a aplicar diversas técnicas computacionales y conceptos de Inteligencia Artificial. Dado que el principal activo de estas aplicaciones son los datos, optamos por el término ''Data-Driven'' (DD), ya que el término de Inteligencia Artificial puede causar confusión en los no expertos. Este es un campo en expansión en todos los aspectos de la ciencia y de la vida, donde al tiempo que se incrementan las capacidades de computación y de procesamiento, se incrementa la generación de datos. Ahí tenemos la tecnología 5G, o el internet de las cosas, donde el incremento exponencial del volumen de datos que se utilizan nos obliga a desarrollar marcos para el tratamiento y el análisis de los mismos. Los métodos DD tienen un enorme potencial para transformar nuestra habilidad de establecer un seguimiento supervisado y predecir estados de variables hidro-meteorológicas. Su aplicación provee claramente de beneficios, sin embargo realizar estos ejercicios requiere una práctica y un conocimiento específico. Por ello, es necesario un entendimiento más profundo de las capacidades y de las limitaciones de estas técnicas computacionales, dentro de nuestro campo de conocimiento y casos específicos. Por estos motivos, es esencial realizar experiencias ''hidro-informáticas'' bajo este supuesto, identificando así qué puntos son los más relevantes y a tener en cuenta en el desarrollo y la validación de estos modelos en condiciones o marcos más regionales. Para ello, trabajaremos con las series temporales recogidas en las diferentes redes de monitorización, con series resultantes de modelado hidro-meteorológico y con series de las oscilaciones atmosféricas más relevantes en la zona de estudio. El objetivo principal de este trabajo, es el desarrollo y la validación de marcos metodológicos basados en datos. Para ello, se seleccionan puntos de interés, con el fin de desarrollar marcos hidro-meteorológicos útiles en la gestión y optimización de los recursos hídricos. En este supuesto, nos interesa ver la aplicabilidad práctica de estas herramientas de aprendizaje automático, machine learning, en condiciones mediterráneas y locales, donde los datos a veces son escasos o de baja calidad. 2.contenido de la investigación En el primer capítulo se realiza una introducción a la tesis doctoral, estableciendo los objetivos tanto generales como específicos, y la motivación de la tesis. Seguidamente se realiza a modo introductorio una descripción de los tres ejercicios fundamentales a realizar en el trabajo de investigación: Regresión, Clasificación y Optimización. Finalmente, se realiza una revisión del estado del arte de trabajos previos bajo condiciones climáticas mediterráneas y similares. El capítulo 2 presenta las zonas de estudio, analizando las características espacio-temporales de dos cuencas mediterráneas andaluzas situadas en el sureste español: río Guadalhorce (GH) y río Guadalfeo (GF). Son cuencas hidrográficas con unos patrones espacio-temporales altamente variables/heterogéneos. El primer sistema hidrológico, GH, contiene una zona de gran importancia socio-económica como es la ciudad de Málaga. El segundo, GF, al norte tiene situado el Parque Nacional de Sierra Nevada, coronado por el pico Mulhacén y desemboca a pocos kilómetros en la costa de Motril. Esto hace que este sea un sistema con grandes gradientes geo-morfológicos e hidro-meteorológicos. En ambas cuencas existen estructuras de regulación de gran interés para el desarrollo y estudio de su optimización. También se revisan las redes de monitorización disponibles en estas cuencas, y que agentes deben ser tenidos en cuenta para la consecución de los objetivos del presente trabajo. En la etapa de análisis de datos de este capítulo, nos centramos en la evolución espacio temporal del riesgo frente a las inundaciones en las desembocaduras de ambos sistemas hidrológicos al mar de Alborán. Se cuantifica el aumento del riesgo frente a inundaciones ante la intrusión de usos del suelo con altos costes en las zonas potencialmente inundables en estos últimos años, constatando así una mala práctica en la planificación del territorio dentro de la zona de estudio. También, en este capítulo se analizan los datos registrados con el fin de comprender la ocurrencia de avenidas en el río GH y su relación con los desembalses aguas arriba. En este análisis se pudo identificar, como ante algunos eventos pluviométricos extremos (>100mm/24h), esta cuenca tiene limitaciones en la regulación, no pudiendo así mitigar los costes aguas abajo. Estos análisis nos permiten identificar la necesidad de una optimización temporal más precisa en la gestión de avenidas en este sistema hidrológico. Finalmente, realizamos un análisis de otro riesgo hidrológico importante como son las sequías, y cómo podemos representar este déficit hídrico mediante índices estandarizados, tanto para la pluviometría como para la escorrentía. En el capítulo 3 se analizan los diversos enfoques y metodologías para el modelado de series temporales hidro-meteorológicas. Los enfoques se exponen de forma antagonista entre las diferentes opciones de modelado que tenemos: caja negra vs. caja gris vs. caja blanca, paramétricos vs. no-paramétricos, estático vs. dinámico, lineal vs. no-lineal, frecuentista vs. bayesiano, único vs múltiple, entre otros..., enumerando las ventajas e inconvenientes de cada enfoque. Por otro lado, también se discuten los pasos de partición, gestión y transformación de los datos para una correcta aplicación de este tipo de métodos experimentales. Esto es de gran importancia, ya que parte del trabajo duro en la aplicación de este tipo de metodologías, proviene de la transformación de los datos para que los algoritmos y las funciones de transferencia funcionen correctamente. En la parte final de este capítulo, nos centramos en cómo evaluar y validar el comportamiento determinista y probabilístico mediante coeficientes evaluativos. En este punto, prestamos especial atención en evitar la utilización de coeficientes que enmascaren los resultados o muy generalistas, y por lo tanto nos centramos en aquellos que evalúan las capacidades predictivas y de precisión de los modelos. También se ha tenido en cuenta la parsimonia para los modelos basados en redes neuronales, ya que pueden caer fácilmente en una sobre-parametrización. El capítulo 4 expone trabajo puramente experimental, donde se realizan siete regresiones lluvia escorrentía a corto plazo, seis diarias y una horaria. Los casos de estudio corresponden a diversos puntos de interés dentro de las zonas de estudio, con importantes implicaciones en la gestión hidrológica. A escala horaria se analiza las capacidades de eficiencia y predictivas de la Regresión Lineal Múltiple (MLR) y Redes Neuronales Bayesianas (BNN) a diez horizontes temporales para el nivel del río Guadalhorce en el puente de Cártama. Se encontró que para horizontes predictivos más cercanos, un enfoque más sencillo como puede ser el lineal (MLR), puede superar a uno con mayores capacidades predictivas a priori, como pueden ser uno no lineal (BNN). Simplificando así, el desarrollo y la implementación de este tipo de técnicas computacionales bajo este tipo de marcos hidrológicos. Por otro lado, a escala diaria se establece un marco comparativo entre los dos modelos anteriores, MLR y BNN, y un método bayesiano completo: Procesos Gaussianos (GP). Esta técnica computacional, nos permite aplicar funciones de transferencia de diferente naturaleza bajo un único modelo. Esto es una ventaja con respecto a los otros dos modelos computacionales, ya que los resultados nos indican que a veces funcionan bien en un dominio, pero no funcionan bien en el contrario. Durante la construcción de los modelos, la selección de las variables de entrada se realiza de forma progresiva, mediante un método de prueba y error, donde se tienen en cuenta las mejoras significativas con respecto a la última estructura de predictores preservando el principio de parsimonia. Se han utilizado datos de diferente naturaleza: datos reales recogidos en las redes de monitorización y datos generados paralelamente de modelización hidrológica con base física (WiMMed). Los resultados son robustos donde la principal limitación es el alto coste computacional por el método recurrente e iterativo. En el capítulo 5 se realizan tres experiencias predictivas a escalas temporales de medio plazo. El primer experimento de modelado (Sec.5.1) se basa en una escala de tiempo trimestral, donde se establece un esquema temporal hidrológico para determinar la escorrentía acumulada para horizontes de tiempo específicos. El esquema temporal se define para que estos horizontes coincidan con fechas donde tiene lugar la planificación hidrológica. En este ejercicio, se valida que los pronósticos son más prósperos después de que transcurran los primeros seis meses del año hidrológico, en lugar de los tres primeros en los que realizamos las evaluaciones. Las variables descriptivas analizadas fueron: escorrentía acumulada, precipitación acumulada, valores acumulados de variables de la nieve modelizadas, y oscilaciones atmosféricas (AO). A nivel del modelado con técnicas DD dentro de un marco predictivo estático, esta experiencia ha demostrado la superioridad de los modelos mixtos (clasificación más regresión) frente a la aplicación de modelos regresivos unicamente. De esta manera reducimos y acotamos el espacio de posibles soluciones y así, optimizamos el comportamiento predictivo del modelo DD. Dentro de este ejercicio, se comparan tres clasificadores DD: Probabilistic Neural Network (PNN), K-Nearest Neighbour (KNN) y Support Vector Machine (SVM), donde se valida un mejor comportamiento del clasificador SVM. Sin embargo, aún se requiere más investigación sobre los clasificadores en marcos hidro-meteorológicos como los nuestros debido a su alta variabilidad. En el segundo apartado de este capítulo (Sec.5.2), realizamos un ejercicio de predicción de lluvia a escala mensual. Para ello usamos un modelo auto-regresivo BNN, siguiendo el mismo método que en el capítulo anterior (Cap.4) para la selección de las variables de entrada (IVS). De esta manera se ha validado el método IVS a otra escala temporal. Los resultados en términos predictivos fueron pobres para esta importante y compleja variable hidro-meteorológica, confirmando así la dificultad de predecir la lluvia a partir de datos históricos y sin la incorporación de herramientas dinámicas de modelado físico. Se constata así la necesidad de modelado hidrodinámico complejo para su predicción. Por otro lado, este caso sirvió para inferir de manera empírica la relevancia de cuatro oscilaciones atmosféricas sobre la lluvia registrada en los puntos de estudio. A partir de simulaciones múltiples y con un enfoque basado en el modelo, se han establecido qué índices tienen una mayor influencia sobre la lluvia registrada en los puntos de estudio. En el último apartado (Sec.5.3), con las series temporales más representativas se realizó un ejercicio de predicción de anomalías, tanto pluviométricas (tres puntos de estudio) como de escorrentía (un punto de estudio). En este caso, se verifica la idoneidad de siete distribuciones estadísticas para caracterizar las anomalías en condiciones mediterráneas. Bajo esta hipótesis, los índices que pasaron el test de normalidad Shapiro-Wilk, se modelaron con el fin de analizar las capacidades de BNN para predecir estos índices a varios horizontes temporales. Aquí, las predicciones de las fases negativas (sequías ó periodos de déficit) han sido deficientes, y el comportamiento de los modelos para las fases positivas (periodos húmedos) ha sido más exitoso. Con respecto a la inferencia causal de las AO y su posible influencia en la zona de estudio, descubrimos cómo el North Atlantic Oscillation (NAO) y el Western Mediterranean Oscillation (WEMO) ayudan en pronósticos de horizontes temporales menores, mientras que los Mediterranean Oscillation Indices (MOI) ayudan para la predicción a horizontes temporales mayores. Hemos analizado la relevancia de estas variables atmosféricas en cada caso, donde a veces su introducción fue conveniente y en otros no, siguiendo las reglas de construcción y detallándose en cada caso de estudio. Para ello, nos hemos guiado por las tendencias de aprendizaje (Learning trends), que se establecen sobre los resultados de las múltiples simulaciones realizadas. A lo largo del trabajo se ha validado la utilidad de enfoques mixtos de modelado, utilizando modelos basado en datos observados de las diferentes redes de monitorización con modelado físico para la reproducción de procesos hidrológicos esenciales, como por ejemplo la nieve. Con la metodología propuesta, se ha observado una influencia positiva de oscilaciones atmosféricas para la predicción a medio plazo dentro de las regiones de estudio, no encontrando evidencia para la predicción a corto plazo (escala diaria). En el capítulo 6 se exponen las conclusiones finales y futuras líneas de investigación. 3.conclusión Las aplicaciones de este tipo de métodos son necesarios en la actualidad, ya que nos ayudan a establecer relaciones basándonos en datos hidro-meteorológicos medidos y por lo tanto “basados en datos reales”, sin hipotetizar ningún supuesto. Este trabajo, nos muestra que son útiles para acotar la incertidumbre de los estados futuros y para la optimización de los recursos hídricos. Mediante métodos supervisados, el establecimiento de relaciones temporales entre diferentes agentes medioambientales nos permite el establecimiento de relaciones causales entre ellos. Donde posteriormente, un ejercicio de inferencia física es necesario con el fin de añadir coherencia y establecer un ejercicio científico integro. Los resultados obtenidos en este trabajo sirven para reafirmar la utilidad de la implementación de este tipo de marcos metodológicos tanto en el ámbito público como privado, siendo un buen punto de partida de transferencia tecnológica. Gran parte de las rutinas y modelos establecidos en esta tesis podrían ser aplicados directamente en Servicios Hidrometeorológicos o Sistemas de Ayuda a la Decisión para los gestores del agua. Esto incluye usuarios potenciales tan variados como las administraciones públicas y organismos de cuenca, gestores de embalses, empresas energéticas que gestionen la generación hidroeléctrica, comunidades de regantes, plantas embotelladoras de agua,...etc. El establecimiento de marcos iterativos y automáticos para el procesamiento y modelado de los datos necesita ser implementados en los diferentes sistemas hidrológicos locales y regionales, con el fin de explotar todo el potencial de este tipo de técnicas computacionales. 4. bibliografía 1. Efron, B. Bootstrap methods: Another look at the jackknife. 1979. The Annals of Statistics, pages 1–26 .\\ 2. Gulliver, Z., Herrero, J., Viesca, C., \& Polo, M. J. (2012, April). Flood alert system based on bayesian techniques. In EGU General Assembly Conference Abstracts (Vol. 14, p. 11859).\\ 3. Gulliver, Z., Herrero, J., Polo, M.J. 2014. Streamflow forecasting by a data driven method. Two mediterranean study cases. En: Proceedings ITISE 2014. 2, pp. 1303 -1315. Copicentro Granada, S.L, ISBN 978-84-1581-497-4.\\ 4. Gulliver, Z., Herrero, J., and Polo, M.J. 2016, April. Medium-term predictions of cumulative runoff in a Mediterranean mountain river. In EGU General Assembly Conference Abstracts (Vol. 18, p. 14250).\\ 5. Herrero, J., Aguilar, C., Millares, A., Egüén, M., Carpintero, M., Polo, M.J., Losada, M.A., 2010. WiMMed. User Manual v1.1. Grupo de Dinámica Fluvial e Hidrología (Universidad de Córdoba) y Grupo de Dinámica de Flujos Ambientales (Universidad de Granada).\\ 6. Herrero, J., Gulliver, Z., and Polo, M. J. 2014. Flood alert system for early warning in mountainous coastal watersheds: Coupling data-driven and physically based hydrological models. In Proceedings of the 11th International Conference on Hydroinfromatics, New York City, USA.\\ 7. Loucks, D. P., Van Beek, E., Stedinger, J. R., Dijkman, J. P., \& Villars, M. T. 2005. Water resources systems planning and management: an introduction to methods, models and applications. Paris: Unesco.\\ 8. Nabney, I., 2002. NETLAB: algorithms for pattern recognition. Springer Science \& Business Media.\\ 9. Russell, S., Norvig, P. and Intelligence, A., 1995. A modern approach. Artificial Intelligence. Prentice-Hall, Egnlewood Cliffs, 25, p.27.\\