Benchmark · safety

JailbreakBench

2 resultados 2 modelos

STEER (applied to six open-source 8B-parameter models) GPT-4o-mini

Cronología

2026-07-04 STEER (applied to six open-source 8B-parameter models) 93.0% El ataque STEER expone las brechas de seguridad de los LLM en idiomas con pocos recursos
2026-07-04 GPT-4o-mini 35.5% El ataque STEER expone las brechas de seguridad de los LLM en idiomas con pocos recursos