El método combina un modelo de mundo aprendible con políticas de alto y bajo nivel para permitir una exploración segura en tareas de largo horizonte. La política de alto nivel guía la exploración hacia subobjetivos seguros, mientras que la política de bajo nivel utiliza rollouts imaginados para prevenir comportamientos inseguros, superando a los métodos existentes de Safe RL en tasa de éxito y satisfacción de restricciones en diversas tareas.