El aprendizaje por refuerzo carece de modelos base a pesar de que los MDPs sintéticos son viables. Una prueba de concepto muestra que un único modelo entrenado en MDPs sintéticos resuelve benchmarks tabulares sin ajuste, superando a los métodos existentes en entornos online y igualándolos en entornos offline.
Los modelos base de aprendizaje por refuerzo ya deberían existir
Traducido del English → Español