El artículo aborda la persistencia de salidas inseguras en modelos de lenguaje grandes durante el despliegue y propone una solución de monitoreo en tiempo real. Introduce un monitor simple que convierte las señales del verificador de un modelo externo en decisiones de alarma mediante umbralización, con umbrales calibrados mediante control de riesgo.
- El método utiliza umbralización en las señales del verificador para generar alarmas.
- Los umbrales se calibran utilizando técnicas de control de riesgo.
- Se realizaron experimentos en conjuntos de datos de razonamiento matemático y red teaming.
- El diseño simple es competitivo con monitores avanzados basados en pruebas de hipótesis secuenciales.