CRAX: Benchmarking rápido y seguro de aprendizaje por refuerzo
CRAX introduce un benchmark de seguridad acelerado y de alta fidelidad para el aprendizaje por refuerzo utilizando MuJoCo XLA. Logra aceleraciones de hasta 100x sobre benchmarks basados en CPU mediante vectorización y aceleración por hardware, presentando seis conjuntos de entornos y tres tareas específicas del agente en tres niveles de dificultad. La evaluación de seis métodos de RL seguro muestra que ningún enfoque domina, destacando los compromisos entre rendimiento y seguridad, con el aprendizaje por currículo y la transferencia de seguridad mejorando los resultados.