Este artículo propone una taxonomía unificada de origen causal para los cambios de distribución en el aprendizaje por refuerzo, vinculando la generalización ID/OOD con entornos no estacionarios. Descompone la interacción agente-entorno utilizando un marco POMDP, identificando cambios internos impulsados por el agente y externos impulsados por el entorno, con tipos explícitos, implícitos e híbridos definidos por el límite de tiempo desplazado. El trabajo introduce un marco de evaluación para medir el impacto del cambio a través de métricas de degradación y recuperación del rendimiento, permitiendo un análisis sistemático de la robustez del RL.
Taxonomía unificada de origen causal de los cambios de distribución en el aprendizaje por refuerzo
Traducido del English → Español