Un estudio evalúa controladores de aprendizaje por refuerzo sin modelo en sistemas no lineales bajo ataques cibernéticos. La recompensa de Lyapunov ofrece la mejor resiliencia con bajo error de seguimiento, mientras que Proximal Policy Optimization supera a Deep Deterministic Policy Gradient en la reducción de la varianza de KPI.
Tipos de recompensa en RL mejoran la resiliencia en sistemas ciberfísicos
Traducido del English → Español