¿Bastan los codificadores? Una comparación sistemática de jueces evaluadores de seguridad basados en codificadores y decodificadores para la evaluación adversarial de LLM

Este estudio evalúa si los clasificadores de codificador ModernBERT ajustados pueden servir como alternativas rentables a los jueces basados en LLM para la evaluación de seguridad. Los investigadores compararon ModernBERT y Ettin frente a la coincidencia de prefijos basada en reglas, clasificadores de LLM ajustados y varias metodologías de jueces LLM. Estos jueces LLM incluyeron estrategias de StrongReject, ShieldGemma, JailbreakBench, AILuminate, SorryBench, Claude-as-a-judge y modelos como LlamaGuard 3 y 4. Los clasificadores de codificador se entrenaron con datos etiquetados por jueces utilizando una estrategia de etiqueta de votación mayoritaria y se probaron en un conjunto de prueba estándar de oro. El rendimiento se midió utilizando la puntuación F1, la tasa de falsos negativos y las métricas de precisión-recuperación en conjuntos de datos adversariales de código abierto. Los resultados se analizaron adicionalmente por técnica de ataque, incluyendo prompting de turno único, descomposición, escalada y manipulación del contexto. Los hallazgos proporcionan orientación sobre cuándo los clasificadores de codificador pueden reemplazar de manera confiable a los jueces basados en LLM sin una pérdida sustancial de rendimiento.