Устойчивое обучение Q для управления полем среды при неопределенности Вассерштейна

Статья представляет устойчивый алгоритм обучения Q для дискретных временных задач управления полем среды при неопределенности Вассерштейна в общих шумах. Алгоритм объединяет квантование и проекцию с дуальной переписью Вассерштейна и доказывает сходимость с конечными временными оценками как для синхронных, так и для асинхронных схем. Численные эксперименты по моделям системного риска и эпидемий показывают компромисс между устойчивостью и производительностью при асинхронной реализации и сходимость при несоответствии общего шума.