2000 человек пытались взломать моего ИИ-ассистента

Фернандо Иаррасаваль организовал челлендж на hackmyclaw.com, чтобы проверить, смогут ли 6000 попыток утечьнуть секреты из его инстанса OpenClaw с использованием модели Opus 4.6.

Тест заключался в отправке писем ИИ-ассистенту, защищённому правилами против инъекций промптов.
Несмотря на расход $500 на токены и блокировку аккаунта Google из-за большого входящего объёма электронной почты, секреты не были скомпрометированы.
Результаты указывают на то, что современные передовые модели становятся всё более устойчивыми к атакам типа инъекции промптов.

Автор отмечает, что, хотя эти защиты выглядят эффективными, они не гарантируют иммунитет от более сложных будущих атак, поэтому производственные системы остаются уязвимыми.