Os autores introduzem o OpenSafeIntent, um benchmark projetado para avaliar se os modelos de IA fornecem conclusão segura calibrada por intenção usando conjuntos de prompts controlados que variam a intenção enquanto mantêm a tarefa subjacente fixa. Cada ponto de dados inclui variantes benignas, de uso duplo e maliciosas da mesma tarefa para avaliar a calibração de segurança em vez do desempenho médio.

  • O benchmark revela que as métricas de segurança no nível do prompt escondem falhas significativas, pois os modelos frequentemente falham em permanecer seguros entre variantes de intenção correspondentes.
  • Comportamento de uso duplo é encontrado como frágil sob paráfrase, e respostas de alto nível em tópicos arriscados não são confiavelmente seguras.
  • Respostas que reformulam solicitações ambíguas em tarefas mais seguras têm substancialmente menos probabilidade de cruzar o limite de segurança em comparação com outros métodos.

Os resultados sugerem que a conclusão segura deve ser avaliada como comportamento calibrado por intenção sobre variantes de tarefa controladas, em vez de como uma única compensação entre segurança e utilidade sobre prompts independentes.