Фернандо Иаррасаваль организовал челлендж на hackmyclaw.com, чтобы проверить, смогут ли 6000 попыток утечьнуть секреты из его инстанса OpenClaw с использованием модели Opus 4.6.
- Тест заключался в отправке писем ИИ-ассистенту, защищённому правилами против инъекций промптов.
- Несмотря на расход $500 на токены и блокировку аккаунта Google из-за большого входящего объёма электронной почты, секреты не были скомпрометированы.
- Результаты указывают на то, что современные передовые модели становятся всё более устойчивыми к атакам типа инъекции промптов.
Автор отмечает, что, хотя эти защиты выглядят эффективными, они не гарантируют иммунитет от более сложных будущих атак, поэтому производственные системы остаются уязвимыми.