AdversaBench presenta una pipeline de red-teaming end-to-end que genera prompts adversarios mediante cinco operadores estructurados, evalúa los modelos objetivo y confirma fallos a través de un panel de tres jueces con desempate por meta-juez. Los experimentos en 45 prompts semilla en razonamiento, seguimiento de instrucciones y uso de herramientas muestran que cada semilla produce un fallo confirmado, revelando patrones clave en la vulnerabilidad de LLM mediante la efectividad del operador, los conteos de iteración de fallos, el acuerdo entre jueces y la transferibilidad cross-model.
AdversaBench: Red-Teaming automatizado de LLM con confirmación multi-juez
Traducido del English → Español