OTTER es un marco de pruebas de penetración de caja negra que elude los filtros de toxicidad modificando tan solo cinco tokens. Evaluado en 457 prompts de AdvBench a través de cuatro modelos GPT, aumenta la tasa de éxito de jailbreak del 7.0% al 84.0%, ofreciendo el primer análisis cuantitativo de las relaciones de evasión de toxicidad y recomendaciones accionables para el endurecimiento del clasificador.
OTTER: Sistema de Pruebas de Penetración para la Optimización de Prompts de Jailbreak que Evaden la Toxicidad
Traducido del English → Español