作者引入了 OpenSafeIntent,这是一个旨在评估 AI 模型是否通过使用控制提示集来提供按意图校准的安全补全的基准测试,这些提示集在保持底层任务固定的同时改变意图。每个数据点包括同一任务的良性、双用途和恶意变体,以评估安全校准而非平均性能。
- 该基准测试揭示,提示级别的安全指标掩盖了重大失败,因为模型通常无法在匹配的意图变体之间保持安全。
- 发现双用途行为在改写下很脆弱,且高风险主题的高级答案并不可靠地安全。
- 与其他方法相比,将模糊请求重构为更安全任务的回答跨越安全边界的概率要低得多。
结果表明,安全补全应作为受控任务变体上的按意图校准行为进行评估,而不是作为独立提示上单一的安全与有用性权衡。