2.000 personas intentaron hackear mi asistente de IA

Fernando Irarrázaval llevó a cabo un desafío en hackmyclaw.com para probar si 6.000 intentos podían filtrar secretos de su instancia de OpenClaw utilizando el modelo Opus 4.6.

La prueba consistió en enviar correos electrónicos a un asistente de IA protegido por reglas anti-inyección de prompts.
A pesar de gastar $500 en tokens y la suspensión de una cuenta de Google debido al alto volumen de correos entrantes, no se filtraron secretos.
Los resultados sugieren que los modelos de vanguardia actuales son cada vez más resistentes a ataques de inyección de prompts.

El autor señala que, aunque estas defensas parecen efectivas, no garantizan inmunidad contra ataques futuros más sofisticados, por lo que los sistemas en producción siguen en riesgo.