AdversaBench: Red-teaming automatizado de LLM con confirmación de múltiples jueces y transferibilidad entre modelos
Los autores presentan AdversaBench, una pipeline de red-teaming end-to-end que genera entradas difíciles para grandes modelos de lenguaje utilizando cinco operadores de mutación estructurados y confirma fallos mediante un panel de tres jueces con desempate por un meta-juez.