Preentrenamiento sin recompensas para aprendizaje por refuerzo mediante maximización de cobertura de ocupación

ROVER permite el preentrenamiento sin recompensas maximizando la cobertura de ocupación en el espacio de estados, utilizando un modelo del mundo aprendido para estimar la ocupación sin necesidad de estimación de densidad o entropía. Introduce un estado sumidero virtual para equilibrar la exploración de regiones conocidas y desconocidas, logrando una cobertura más uniforme y un mejor rendimiento en tareas posteriores de navegación tabular y basada en píxeles.