Мониторинг онлайн-безопасности для LLM

Статья рассматривает устойчивость небезопасных выходов в больших языковых моделях во время развертывания и предлагает решение для мониторинга в реальном времени. Вводится простой монитор, который преобразует сигналы верификатора из внешней модели в решения об оповещении путем порогового значения, с порогами, откалиброванными через контроль риска.

Метод использует пороговое значение на сигналах верификатора для генерации оповещений.
Пороги калибруются с использованием методов контроля риска.
Эксперименты проводились на наборах данных математического рассуждения и red teaming.
Простой дизайн конкурентоспособен с продвинутыми мониторами, основанными на последовательном тестировании гипотез.