В данном исследовании оценивается, могут ли дообученные классификаторы ModernBERT в качестве энкодеров служить экономически эффективной альтернативой судьям на основе больших языковых моделей (LLM) для оценки безопасности. Исследователи провели бенчмаркинг ModernBERT и Ettin по сравнению с правиловым префиксным сопоставлением, дообученными классификаторами LLM и различными методологиями использования LLM в качестве судей. Эти LLM-судьи включали стратегии из StrongReject, ShieldGemma, JailbreakBench, AILuminate, SorryBench, Claude-as-a-judge, а также модели, такие как LlamaGuard 3 и 4. Классификаторы на основе энкодеров были обучены на данных с метками, полученными от судей, с использованием стратегии мажоритарного голосования для формирования меток, и протестированы на золотом стандарте (выделенной тестовой выборке). Производительность измерялась с помощью F1-меры, доли ложноотрицательных результатов и метрик точности и полноты по наборам данных adversarial-атак с открытым исходным кодом. Результаты дополнительно проанализированы по типу атаки, включая однократное формирование запроса (single-turn prompting), декомпозицию, эскалацию и манипуляцию контекстом. Полученные выводы дают рекомендации относительно того, когда классификаторы на основе энкодеров могут надежно заменять судей на основе LLM без существенной потери производительности.
Хватает ли только энкодеров? Систематическое сравнение судей безопасности на основе энкодеров и декодеров для adversarial-оценки больших языковых моделей
Переведено с English → Русский