Бенчмарк · safety

HarmBench

4 результатов 2 моделей

Opus 4.8 Fable 5

Хронология

2026-06-17 Opus 4.8 11.5% Исследование со стороны красной команды показывает, что передовые LLM остаются уязвимыми перед автоматизированными атаками
2026-06-17 Fable 5 6.1% Исследование со стороны красной команды показывает, что передовые LLM остаются уязвимыми перед автоматизированными атаками
2026-06-17 Opus 4.8 11.5% Исследование группы красных команд показывает, что передовые модели LLM остаются уязвимыми перед адаптивными атаками
2026-06-17 Fable 5 6.1% Исследование группы красных команд показывает, что передовые модели LLM остаются уязвимыми перед адаптивными атаками