Jailbreaking para la Jane promedio: Elección de jailbreaks óptimos mediante algoritmos de bandits

Este estudio investiga si actores maliciosos no expertos pueden lograr con éxito el jailbreaking de modelos de lenguaje grandes utilizando algoritmos de bandit para seleccionar ataques óptimos y mejorar las consultas. Los autores proponen una nueva estrategia de ataque basada en el marco de los multi-armed bandit para aprender eficientemente el mejor jailbreak a partir de un gran conjunto de opciones mediante exploración ruidosa.

Los investigadores crearon FrankensteinBench, un benchmark de seguridad que contiene 11,279 consultas maliciosas derivadas de siete benchmarks existentes con mejora y generación automatizadas.

Cada consulta en el benchmark se clasifica como simple o compleja según la experiencia técnica requerida para elaborarla. El ataque basado en bandit logró una tasa de éxito promedio del 97% en 15 LLMs de peso abierto de última generación. Añadir complejidad a las consultas aumentó la tasa de éxito del ataque hasta un 26% en promedio, demostrando su efectividad como estrategia de prompting automatizable.

Los hallazgos confirman que actores no expertos pueden elicitar respuestas accionables de los modelos, validando las preocupaciones sobre la accesibilidad de los ataques de jailbreak.