Статья представляет устойчивый алгоритм обучения Q для дискретных временных задач управления полем среднего при водяном неопределенности в общем шуме. Алгоритм объединяет квантование и проекцию с водяным дуальными преобразованиями и устанавливает сходимость с конечными временными оценками как для синхронных, так и для асинхронных схем. Численные эксперименты по системным рискам и эпидемиологическим моделям демонстрируют компромисс между устойчивостью и производительностью и сходимость асинхронной реализации.
Устойчивое обучение Q для управления полем среднего при водяном неопределенности
Переведено с English → Русский