Benchmark OpenSafeIntent revela que modelos falham ao calibrar segurança em conjuntos de prompts de uso duplo

Os autores introduzem o OpenSafeIntent, um benchmark projetado para avaliar se os modelos de IA fornecem conclusão segura calibrada por intenção usando conjuntos de prompts controlados que variam a intenção enquanto mantêm a tarefa subjacente fixa. Cada ponto de dados inclui variantes benignas, de uso duplo e maliciosas da mesma tarefa para avaliar a calibração de segurança em vez do desempenho médio.

O benchmark revela que as métricas de segurança no nível do prompt escondem falhas significativas, pois os modelos frequentemente falham em permanecer seguros entre variantes de intenção correspondentes.
Comportamento de uso duplo é encontrado como frágil sob paráfrase, e respostas de alto nível em tópicos arriscados não são confiavelmente seguras.
Respostas que reformulam solicitações ambíguas em tarefas mais seguras têm substancialmente menos probabilidade de cruzar o limite de segurança em comparação com outros métodos.

Os resultados sugerem que a conclusão segura deve ser avaliada como comportamento calibrado por intenção sobre variantes de tarefa controladas, em vez de como uma única compensação entre segurança e utilidade sobre prompts independentes.