Jailbreaking para la Jane promedio: Elección de jailbreaks óptimos mediante algoritmos de bandits
Este estudio investiga si actores maliciosos no expertos pueden lograr con éxito el jailbreaking de modelos de lenguaje grandes utilizando algoritmos de bandit para seleccionar ataques óptimos y mejorar las consultas. Los autores proponen una nueva estrategia de ataque basada en el marco de los multi-armed bandit para aprender eficientemente el mejor jailbreak a partir de un gran conjunto de opciones mediante exploración ruidosa.