El marco de red teaming descubre vulnerabilidades de fidelidad en LLMs mediante una arquitectura multi-rol

Este artículo presenta un marco de red teaming diseñado para descubrir sistemáticamente vulnerabilidades en las salidas de modelos de lenguaje grandes a través de una arquitectura multi-rol. El sistema utiliza modelos objetivo, atacante y jurado para generar prompts adversariales y evaluar rigurosamente la precisión y consistencia de las respuestas. En un estudio de caso sobre evaluación de fidelidad, los prompts adversariales explotadores aumentaron la tasa de éxito del ataque hasta en un 7.9% en tareas de preguntas y respuestas. La investigación demuestra que las decisiones de diseño arquitectónico suelen superar a la escalado de parámetros al determinar la seguridad del modelo e identifica cómo las restricciones estructurales moldean los patrones de vulnerabilidad. El marco muestra adaptabilidad en diversas tareas de evaluación, desde preguntas y respuestas en inglés hasta resúmenes en árabe. Sin embargo, el enfoque enfrenta desafíos para automatizar completamente la generación de prompts adversariales entre diferentes idiomas. Además, los experimentos revelan limitaciones en la detección de formas sutiles de infidelidad que no se manifiestan como contradicciones factuales explícitas.