Un nuevo método de conjunto para MDPs de horizonte finito utiliza estimaciones basadas en cuantiles para alcanzar límites de arrepentimiento óptimos en el sentido minimax. Elimina la dependencia de la incertidumbre basada en conteos y proporciona justificación teórica para la exploración basada en conjuntos en el aprendizaje por refuerzo.
Cuantil de Medias: Método de Conjunto para RL Óptimo en el Sentido Minimax
Traducido del English → Español