A probabilistic framework for prognostics with uncertainty quantification based on physics-guided bayesian neural networks
- Juan Chiachío Ruano Zuzendaria
Defentsa unibertsitatea: Universidad de Granada
Fecha de defensa: 2023(e)ko ekaina-(a)k 22
- Guillermo Rus Carlborg Presidentea
- Enrique García-Macías Idazkaria
- Claudio Sbarufatti Kidea
- Noemi Friedman Kidea
- Antonio Jesús Guillén López Kidea
Mota: Tesia
Laburpena
Las redes neuronales artificiales son una familia de modelos computacionales inspirados en el comportamiento de las neuronas biológicas del cerebro humano. Estos algoritmos han tenido un considerable ´éxito en diversas aplicaciones y están teniendo un gran impacto en nuestra vida diaria. De hecho, muchas industrias llevan décadas cosechando los frutos deluso de estas tecnologías. Pero ese no es el caso en muchas ´áreas de la ingeniería y, más específicamente, en la ingeniería civil/estructural, donde su aplicación se limita principalmente al terreno de la investigación. Incluso cuando la ingeniería civil es un sector con márgenes ajustados donde la seguridad es la prioridad número uno y por lo tanto, los beneficios de su implementación podrían ser significativos. Las razones detrás de este limitado interés son diversas, desde la escasez de datos de calidad, hasta la desconfianza generalizada Sobre su potencial y aplicabilidad en el sector. En efecto, las redes neuronales artificiales a menudo se consideran como un sistema de caja negra, dado que pueden aproximar cualquier función pero sin proporcionar información sobre su estructura o forma. Además, adolecen de una serie de inconvenientes y sus Predicciones no siempre son correctas. Por lo tanto, la cuantificación de la incertidumbre sobre los resultados proporcionados por las redes neuronales se vuelve de gran importancia. Particularmente, las redes neuronales Bayesianas actuales, como “Variational Inference”, “Hamiltonian Montecarlo” o “Probabilistic Backpropagation”, han contribuido en gran medida a arrojar luz sobre este asunto, pero su método para cuantificar la incertidumbre puede Considerarse como rígido. Esto se debe principalmente al uso de modelos de probabilidad paramétricos para definir la función de densidad de los pesos y sesgos, pero también a otras limitaciones específicas del algoritmo de retropropagación (“backpropagation”). En esta tesis se propone un nuevo algoritmo de entrenamiento para redes neuronales Bayesianas basado en computación Bayesiana aproximada, en adelante denominado BNN by ABC-SS. Los pesos y sesgos de la red se entrenan de forma probabilística sin retropropagación ni evaluación del gradiente o derivadas parciales, por lo que se evitan problemas como el estancamiento en mínimos locales y se mejora la estabilidad del algoritmo. Además, no se predefinen modelos de probabilidad paramétricos para la función de densidad de los pesos y sesgos, sino que estas pueden adoptar cualquier forma acorde a los datos de entrenamiento. Como resultado, BNN by ABC-SS presenta una gran flexibilidad para aprender de los datos observados y, lo que es más importante, para cuantificar la incertidumbre presente en dichos datos. Las predicciones de esta red neuronal Bayesiana entrenada con ABC-SS son funciones de densidad no paramétricas, que pueden entenderse como el grado de creencia en dichas predicciones en base a los datos disponibles. Como se mencionó anteriormente, la falta de datos también es una limitación importante para las redes neuronales artificiales, ya que su entrenamiento depende completamente de ellos. Además, la extrapolación esta fuera de sus capacidades, lo que significa que las predicciones realizadas fuera del dominio de los datos de entrenamiento suelen ser aleatorias y, en la mayoría de los casos, no se debe confiar en ellas. Este problema se puede superar, o al menos mitigar, introduciendo modelos basados en física dentro de la arquitectura de la red neuronal. Si bien estos algoritmos híbridos son cada vez más populares dentro de la comunidad científica, normalmente la física es insertada en la función de coste a través de algunas Condiciones de contorno conocidas, en forma de ecuaciones diferenciales parciales. Luego, el error se retropopagación para ajustar los pesos y sesgos, obligándolos a cumplir con las leyes de la física dadas. En esta tesis se sigue un enfoque diferente, donde la física se introduce de forma independiente en tres partes de la red neuronal, a saber, las neuronas de entrada, las neuronas de salida y la función métrica (ρ en ABC-SS), lo que da como resultado tres variantes que son entrenadas con ABC-SS. En consecuencia, la necesidad de datos se reduce y las capacidades de extrapolación del modelo hibrido mejoran notablemente, especialmente cuando la física se agrega a las neuronas de salida como un parámetro de sesgo adicional. Además, el uso de ABC-SS como motor de aprendizaje proporciona estabilidad y una cuantificación más realista de la incertidumbre, lo que genera un algoritmo más fiable. Esto es especialmente interesante en ingeniería, ya que nos permite aprovechar y explotar el valioso conocimiento que existe dentro de los modelos basados en física, así como la flexibilidad delas redes neuronales artificiales para capturar el comportamiento no lineal que a menudo se encuentra en los datos reales. Los principios antes mencionados nos llevan a la última etapa de esta tesis doctoral, cuando estos son aplicados a la ingeniería de pronóstico, una disciplina que se enfoca en predecir como evolucionara el daño y el rendimiento de un sistema a lo largo del tiempo. Para ello, la capacidad de manejar datos secuenciales es de gran importancia, y es ahí donde destacan las redes neuronales recurrentes. En la literatura existente se puede observar como estos algoritmos basados en datos también se combinaron con modelos basados en física. Mientras estos modelos recurrentes hibrido han proporcionado resultados prometedores, también han mostrado ser especialmente sensibles a problemas relacionados con la retropropagacion del gradiente, conocidos como “vanishing gradients”. Arquitecturas más complejas como “Long-Short-Term-Memory” han demostrado mitigar este problema, pero a expensas de aumentar la cantidad de parámetros y funciones de activación ´on. En esta tesis, se propone una red neuronal recurrente guiada por física y entrenada con ABC-SS, para hacer predicciones sobre el rendimiento futuro de un sistema de ingeniería basándose en datos secuenciales históricos y modelos físicos. La naturaleza probabilística del entrenamiento Bayesiano ABC-SS, junto con su cuantificación flexible de la incertidumbre, proporciona un algoritmo fiable que evita los problemas asociados con la evaluación del gradiente y su retropropagación en el tiempo, por lo que las dependencias a largo plazo pueden ser aprendidas sin la necesidad de arquitecturas más complejas. Además, la combinación del conocimiento basado en física y la regularización Bayesiana contribuye a mejorar la capacidad de extrapolación de la red neuronal recurrente propuesta, lo que es fundamental para realizar predicciones sobre un horizonte lejano. Para evaluar el rendimiento de los algoritmos propuestos en esta tesis se presentan varios casos de estudio con diferentes problemas de ingeniería, desde fatiga en materiales compuestos hasta desplazamientos y aceleraciones en estructuras de hormigón armado sometidas a cargas sísmicas. En todos ellos se observa una cuantificación realista de la incertidumbre proporcionada por ABC-SS, alta precisión comparable a la de las redes neuronales actuales, estabilidad gracias a la ausencia de evaluación del gradiente, y la capacidad de hacer predicciones precisas más allá del dominio de los datos de entrenamiento cuando se combinan con modelos basados en física. Con respecto a las aplicaciones a casos reales, las redes neuronales Bayesianas propuestas se podrían considerar como parte de una herramienta de PHM más amplia, ayudando a tomar decisiones mejor informadas sobre futuras operaciones de mantenimiento, basadas en pronósticos sobre la integridad estructural del sistema.