AdversaBench: Red-teaming automatizado de LLM con confirmación de múltiples jueces y transferibilidad entre modelos

Los autores presentan AdversaBench, una pipeline de red-teaming end-to-end que genera entradas difíciles para grandes modelos de lenguaje utilizando cinco operadores de mutación estructurados y confirma fallos mediante un panel de tres jueces con desempate por un meta-juez.

Los experimentos en 45 semillas a través de las categorías de razonamiento, seguimiento de instrucciones y uso de herramientas resultaron en fallos confirmados para cada semilla.
La efectividad del operador varía según la categoría, con inject_distractor obteniendo una recompensa media de 0.00 en semillas de seguimiento de instrucciones pero 0.80-0.83 en razonamiento y uso de herramientas.
Las semillas de seguimiento de instrucciones requirieron un promedio de 2.4 iteraciones del atacante en comparación con 1.1 para otras categorías, revelando brechas de dificultad ocultas por las tasas de fallo binarias.
Un acuerdo entre jueces emparejados del 80-87% coexiste con un kappa de Cohen cercano a cero debido al sesgo de etiquetas, lo que indica que las tasas de desacuerdo a nivel de categoría son más informativas.
Los prompts adversarios generados contra Llama 3.1 8B se transfieren zero-shot a Llama 3.3 70B, sugiriendo que las mutaciones explotan patrones de comportamiento generales en lugar de debilidades específicas del modelo.

El estudio destaca la importancia de utilizar confirmación con múltiples jueces y análisis a nivel de categoría para evaluar con precisión la robustez adversarial en grandes modelos de lenguaje.