Le benchmark OpenSafeIntent révèle que les modèles échouent à calibrer la sécurité entre des ensembles de prompts à double usage

Les auteurs présentent OpenSafeIntent, un benchmark conçu pour évaluer si les modèles d'IA fournissent une complétion sûre calibrée par l'intention en utilisant des ensembles de prompts contrôlés qui varient l'intention tout en maintenant la tâche sous-jacente fixe. Chaque point de données comprend des variantes bénignes, à double usage et malveillantes de la même tâche pour évaluer la calibration de la sécurité plutôt que les performances moyennes.

Le benchmark révèle que les métriques de sécurité au niveau du prompt masquent des échecs significatifs, car les modèles échouent souvent à rester sûrs entre des variantes d'intention appariées.
Le comportement à double usage s'avère fragile face aux paraphrases, et les réponses de haut niveau sur des sujets risqués ne sont pas fiablement sûres.
Les réponses qui reformulent des requêtes ambiguës en tâches plus sûres sont substantiellement moins susceptibles de franchir la limite de sécurité par rapport aux autres méthodes.

Les résultats suggèrent que la complétion sûre devrait être évaluée comme un comportement calibré par l'intention sur des variantes de tâches contrôlées plutôt que comme un compromis unique entre sécurité et utilité sur des prompts indépendants.