arxiv arXiv cs.LG · 6d ago · research

Quantile of Means: Ensemble Method for Minimax Optimal RL

from English

A new ensemble method for finite-horizon MDPs uses quantile-based estimates to achieve minimax optimal regret bounds. It eliminates reliance on count-based uncertainty and provides theoretical justification for ensemble-based exploration in reinforcement learning.

Importance 2/3 arXiv cs.LG Evaluation & benchmarks Reasoning models Training methods

Read original