Исследование группы красных команд по моделям Anthropic Fable 5 и Opus 4.8 показывает, что обе модели уязвимы к адаптивным итеративным атакам, при этом Opus 4.8 был проникнут на 11,5% вредоносных намерений, а Fable -5 — на 6,1%. Несмотря на устойчивые защиты, обе модели генерировали 1620 и 702 вредоносных завершений, подтвержденных панелью экспертов, по всем категориям вредоносности, автоматически и эффективно под действием автоматизированных атак.
Исследование группы красных команд показывает, что передовые модели LLM остаются уязвимыми перед адаптивными атаками
Переведено с English → Русский