Evolutionary computation for multitask and meta reinforcement learning: new methods and perspectives towards general-purpose Artificial Inteligence

  1. Martínez Quintana, Aritz David
Dirigida por:
  1. Javier del Ser Lorente Codirector/a
  2. Francisco Herrera Triguero Codirector

Universidad de defensa: Universidad de Granada

Fecha de defensa: 14 de abril de 2023

Tipo: Tesis

Resumen

En la actualidad, las técnicas de Big Data y aprendizaje profundo (Deep Learning) están cambiando la forma en la que interactuamos con la tecnología. Desde recomendadores de contenido hasta tecnologías capaces de crear arte, la ubucuidad de las redes neuronales es evidente hoy día, y se preveé creciente en el medio/largo plazo. Por ello, y ante la inmensidad de campos en los que el Deep Learning es aplicable, resulta interesante extrapolar o “reutilizar” el conocimiento generado en un problema para resolver otros problemas relacionados con mayor eficacia y rapidez. Este procedimiento, conocido como aprendizaje por transferencia (Transfer Learning), es una técnica muy extendida en Deep Learning. En este sentido, un paradigma del aprendizaje en el que la transferencia de conocimiento entre problemas ha demostrado ser muy efectiva es el aprendizaje por refuerzo (Reinforcement Learning), ya que atiende varias de las debilidades inherentes al proceso de entrenamiento de un agente: la eficiencia de muestreo en la exploración del espacio de soluciones, o la posibilidad de que el entrenamiento del agente se estanque en políticas sub-óptimas. Además de las técnicas tradicionalmente empleadas para paliar estos inconvenientes, como la utilización de múltiples agentes o el uso de mecanismos de inducción de curiosidad comportamental, se ha demostrado que la computación evolutiva puede dar lugar a procedimientos híbridos de entrenamiento eficientes en tiempo para agentes de aprendizaje por refuerzo en entornos de aplicación complejos. En este contexto, la presente tesis doctoral estudia cómo la computación evolutiva puede ayudar a que los modelos de aprendizaje por refuerzo basados en Deep Learning sean capaces de adaptarse rápidamente a nuevos escenarios merced a la reutilización del conocimiento generado en problemas precedentes. Para ello, la investigación se centrará en el uso de una rama concreta de reciente aparición en la computación evolutiva, denominados algoritmos multifactoriales, que permiten resolver varios problemas de optimización de manera simultánea, aprovechando las posibles sinergias existentes entre sus espacios de búsqueda y/o soluciones. La tesis parte de la observación de que el entrenamiento de un modelo de aprendizaje por refuerzo basado en Deep Learning puede ser formulado como un problema de optimización y por tanto, abordable mediante computación evolutiva. Esta observación abre la posibilidad de que, en escenarios de aprendizaje por refuerzo con múltiples tareas (multitask reinforcement learning), los algoritmos multifactoriales anteriormente citados puedan ser empleados para automatizar el intercambio de conocimiento modelado para cada una de las tareas entre los agentes que atacan cada una de ellas. Esta primera hipótesis de investigación abordada por la tesis se complementa con una segunda idea: la generación de conocimiento generalizable a nuevas tareas de aprendizaje por refuerzo a partir del entrenamiento conjunto de agentes en otras tareas previas. En particular la tesis se centra en la casuística zero-shot, por la que no es posible conocer a priori nada de las nuevas tareas, ni actualizar el modelo a posteriori con información recolectada de dichas tareas. Este escenario, también abordado mediante computación evolutiva y algoritmos multifactoriales, supone un paso más allá hacia la capacidad de los modelos de Inteligencia Artificial para generar conocimiento generalizable que le permita adaptarse autónoma y eficientemente a nuevas tareas de aprendizaje, avanzando firmemente hacia un nuevo paradigma del aprendizaje: GPAI (General-Purpose Artificial Intelligence).