arxiv arXiv cs.LG · hace 1 h · fuente: hace 10 d · research

Cuantil de Medias: Método de Conjunto para RL Óptimo en el Sentido Minimax

Traducido del English → Español

Un nuevo método de conjunto para MDPs de horizonte finito utiliza estimaciones basadas en cuantiles para alcanzar límites de arrepentimiento óptimos en el sentido minimax. Elimina la dependencia de la incertidumbre basada en conteos y proporciona justificación teórica para la exploración basada en conjuntos en el aprendizaje por refuerzo.

Importancia 2/3 arXiv cs.LG Evaluation & benchmarks Reasoning models Training methods

Leer original