Evaluación fuera de política para recompensas MNAR en MDPs

Proponemos un método de evaluación fuera de política para MDPs de horizonte finito con recompensas que faltan no al azar. Nuestro enfoque utiliza un modelo de propensión dependiente de la recompensa y una función puente para recuperar las recompensas medias condicionales sin modelar el mecanismo MNAR, logrando consistencia y cotas de error en muestras finitas. Los experimentos en datos simulados y de Sepsis MIMIC-III muestran un rendimiento superior frente a métodos existentes.