La Estimación Directa de la Ventaja (DAE) se extiende a dominios parcialmente observables con modificaciones mínimas. Un modelo de dinámica latente discreto reduce la sobrecarga computacional al aproximar eficientemente las probabilidades de transición, permitiendo un aprendizaje por refuerzo profundo escalable y eficiente en muestras en espacios de observación de alta dimensión.