Monitoramento de segurança online para LLMs

O artigo aborda a persistência de saídas inseguras em modelos de linguagem grandes durante a implantação e propõe uma solução de monitoramento em tempo real. Introduz um monitor simples que converte sinais do verificador de um modelo externo em decisões de alarme por meio de limiarização, com limiares calibrados via controle de risco.

O método usa limiarização nos sinais do verificador para gerar alarmes.
Os limiares são calibrados usando técnicas de controle de risco.
Experimentos foram realizados em conjuntos de dados de raciocínio matemático e red teaming.
O design simples é competitivo com monitores avançados baseados em teste sequencial de hipóteses.