arxiv arXiv cs.LG · hace 2 h · fuente: hace 11 d · research

Tipos de recompensa en RL mejoran la resiliencia en sistemas ciberfísicos

Traducido del English → Español

Un estudio evalúa controladores de aprendizaje por refuerzo sin modelo en sistemas no lineales bajo ataques cibernéticos. La recompensa de Lyapunov ofrece la mejor resiliencia con bajo error de seguimiento, mientras que Proximal Policy Optimization supera a Deep Deterministic Policy Gradient en la reducción de la varianza de KPI.

Importancia 1/3 arXiv cs.LG Evaluation & benchmarks Reasoning models Training methods

Leer original