Статья рассматривает устойчивость небезопасных выходов в больших языковых моделях во время развертывания и предлагает решение для мониторинга в реальном времени. Вводится простой монитор, который преобразует сигналы верификатора из внешней модели в решения об оповещении путем порогового значения, с порогами, откалиброванными через контроль риска.
- Метод использует пороговое значение на сигналах верификатора для генерации оповещений.
- Пороги калибруются с использованием методов контроля риска.
- Эксперименты проводились на наборах данных математического рассуждения и red teaming.
- Простой дизайн конкурентоспособен с продвинутыми мониторами, основанными на последовательном тестировании гипотез.