Бенчмарк · safety

HarmBench

4 результатов 2 моделей
0 3.5 7 10.5 14 2026-06-17 Opus 4.8 · 11.5 · 2026-06-17 Opus 4.8 · 11.5 · 2026-06-17 Fable 5 · 6.1 · 2026-06-17 Fable 5 · 6.1 · 2026-06-17
Opus 4.8 Fable 5
Хронология
  1. 2026-06-17 Opus 4.8 11.5% Исследование со стороны красной команды показывает, что передовые LLM остаются уязвимыми перед автоматизированными атаками
  2. 2026-06-17 Fable 5 6.1% Исследование со стороны красной команды показывает, что передовые LLM остаются уязвимыми перед автоматизированными атаками
  3. 2026-06-17 Opus 4.8 11.5% Исследование группы красных команд показывает, что передовые модели LLM остаются уязвимыми перед адаптивными атаками
  4. 2026-06-17 Fable 5 6.1% Исследование группы красных команд показывает, что передовые модели LLM остаются уязвимыми перед адаптивными атаками