L'article traite de la persistance des sorties non sécurisées dans les grands modèles de langage lors du déploiement et propose une solution de surveillance en temps réel. Il présente un moniteur simple qui convertit les signaux de vérificateur d'un modèle externe en décisions d'alarme par seuillage, avec des seuils calibrés via le contrôle des risques.

  • La méthode utilise le seuillage sur les signaux du vérificateur pour générer des alarmes.
  • Les seuils sont calibrés à l'aide de techniques de contrôle des risques.
  • Des expériences ont été menées sur des ensembles de données de raisonnement mathématique et de red teaming.
  • La conception simple est compétitive par rapport aux moniteurs avancés basés sur le test d'hypothèses séquentiel.