Диффузионное приближение для обучения TD с линейными признаками
Вводится модель стохастического дифференциального уравнения для линейного обучения TD(0) под марковским шумом. Оно разделяет динамику сжатия от эффектов выборки и объясняет порог ошибки через взаимодействие между долгосрочной ковариацией и геометрией проецированного оператора Беллмана.