Taxonomía unificada de origen causal de los cambios de distribución en el aprendizaje por refuerzo
Este artículo propone una taxonomía unificada de origen causal para los cambios de distribución en el aprendizaje por refuerzo, vinculando la generalización ID/OOD con entornos no estacionarios. Descompone la interacción agente-entorno utilizando un marco POMDP, identificando cambios internos impulsados por el agente y externos impulsados por el entorno, con tipos explícitos, implícitos e híbridos definidos por el límite de tiempo desplazado. El trabajo introduce un marco de evaluación para medir el impacto del cambio a través de métricas de degradación y recuperación del rendimiento, permitiendo un análisis sistemático de la robustez del RL.