Los investigadores identifican la 'confusión de rol' como una vulnerabilidad clave en los LLM, donde los modelos interpretan mal la entrada del usuario debido a similitudes estilísticas con las etiquetas de rol internas. Destilizar los prompts del usuario reduce el éxito del ataque del 61% al 10%, lo que muestra que cambios sutiles en el estilo del texto pueden alterar drásticamente el comportamiento del modelo, incluso cuando el contenido parece idéntico para los humanos.