Квантиль средних: метод ансамбля для минимакс оптимального обучения с усилением

Новый метод ансамбля для конечных горизонтов МДП использует оценки на основе квантилей для достижения минимакс оптимальных границ потерь. Он устраняет зависимость от подсчета неопределенности и предоставляет теоретическое обоснование для ансамблевого поиска в обучении с усилением.