Aprendizaje de la política del agente rojo a partir de observaciones para agentes cibernéticos neurosimbólicos

Se propone una técnica de aprendizaje de políticas que utiliza aprendizaje por imitación para predecir las acciones del agente rojo en entornos cibernéticos parcialmente observables. El método aprende las políticas del agente rojo a partir de observaciones de la red y acciones del defensor, permitiendo a los agentes de defensa cibernética neurosimbólicos predecir con precisión los ataques y adaptar las defensas en diversos escenarios simulados.