Red-Teaming del Red-Team Agéntico

Este trabajo presenta el primer análisis de seguridad en profundidad de sistemas agénticos ampliamente utilizados para operaciones de seguridad ofensiva, revelando defectos de diseño comunes que permiten a los adversarios exfiltrar claves de API y comprometer las máquinas del operador incluso dentro de sandboxes.

Los autores introducen una cadena completa de ciberataques para estos sistemas, detallando la progresión del ataque desde la manipulación inicial de LLM hasta el movimiento lateral, persistencia, elusión de guardrails y escape del sandbox.

Basándose en estos hallazgos, el estudio propone una arquitectura robusta y principios de diseño accionables para mitigar las rutas de ataque reveladas a nivel arquitectónico.