Se propone una técnica de aprendizaje de políticas que utiliza aprendizaje por imitación para predecir las acciones del agente rojo en entornos cibernéticos parcialmente observables. El método aprende las políticas del agente rojo a partir de observaciones de la red y acciones del defensor, permitiendo que los agentes de defensa cibernética neurosimbólicos predigan con precisión los ataques y adapten las defensas en diversos escenarios simulados.