Типы вознаграждений в RL повышают устойчивость в кибер-физических системах

Исследование оценивает контроллеры без модели машинного обучения в нелинейных системах при кибератаках. Вознаграждение Ляпунова обеспечивает наилучшую устойчивость с низкой ошибкой отслеживания, в то время как метод Proximal Policy Optimization превосходит Deep Deterministic Policy Gradient по снижению вариации ключевых показателей эффективности.