Снижение дисперсии в обучении на основе временных разностей

Обучение на основе временных разностей снижает дисперсию за счет агрегации по нескольким траекториям. Исследование показывает, что дисперсия TD асимптотически ограничена сверху оценками Монте-Карло, и короткие горизонты обновления снижают дисперсию при фиксированном количестве образцов. Прямое оценка преимущества действует как регрессионно скорректированный контр-вариант и достигает более тесных границ дисперсии, чем TD при больших выборках.