Исследование со стороны красной команды показывает, что передовые LLM остаются уязвимыми перед автоматизированными атаками
Исследование со стороны красной команды по моделям Anthropic Fable 5 и Opus 4.8 показывает, что обе модели уязвимы к адаптивным итерационным атакам, при этом Opus 4.8 был проникнут на 11,5% интенций, а Fable -5 на 6,1%. Несмотря на прочные защиты, обе модели генерировали 1620 и 702 подтвержденных вредоносных завершений по всем категориям вреда, автоматически и эффективно при автоматизированных атаках.