Transformers de atención jerárquica para la detección de jailbreaks multi-turno

Un nuevo modelo de atención jerárquica detecta jailbreaks multi-turno codificando los turnos en representaciones compactas y utilizando un módulo de conversación ligero para capturar las dinámicas del diálogo. En 14,038 conversaciones, alcanza una puntuación F1 de 0.9394, superando a Claude Opus 4.7 por 0.07 y reduciendo la tasa de falsos positivos a la mitad. Los estudios de ablation muestran que combinar la atención cruzada y la autoatención en el módulo de conversación reduce los falsos positivos en 2.26 puntos porcentuales.