OpenSafeIntent基准测试揭示模型未能对双用途提示集进行安全校准

作者引入了 OpenSafeIntent，这是一个旨在评估 AI 模型是否通过使用控制提示集来提供按意图校准的安全补全的基准测试，这些提示集在保持底层任务固定的同时改变意图。每个数据点包括同一任务的良性、双用途和恶意变体，以评估安全校准而非平均性能。

结果表明，安全补全应作为受控任务变体上的按意图校准行为进行评估，而不是作为独立提示上单一的安全与有用性权衡。