本文介绍了对抗语用学(Adversarial Pragmatics)作为新的基准测试和标注协议,旨在评估AI模型在复杂语言条件下的行为,例如指令冲突、嵌入式命令和政策模糊性。现有的安全评估通常将这些细微差别过度简化为通过/不通过的标签,掩盖了失败的根源原因,如能力限制或评估者判断的不稳定性。

  • 该框架提供了一个语言控制的分类法,用于分析代理任务中自然语言的歧义行为。
  • 它包含一个带有验证器强制执行元数据的18项种子基准测试和一个54行的本地种子试点。
  • 专家评估协议区分了任务成功、政策合规、安全风险、拒绝结果和评估者信心。
  • 该方法论提供了用于验证安全评估和LLM裁判的法官有效性、诊断模糊性和分类法漂移指标。