arxiv arXiv cs.CL · 1 小时前 · 来源： 3 天前 · research

对抗语用学引入指令冲突和嵌入式命令的基准测试

译自 English → 中文

本文介绍了对抗语用学（Adversarial Pragmatics）作为新的基准测试和标注协议，旨在评估AI模型在复杂语言条件下的行为，例如指令冲突、嵌入式命令和政策模糊性。现有的安全评估通常将这些细微差别过度简化为通过/不通过的标签，掩盖了失败的根源原因，如能力限制或评估者判断的不稳定性。

该框架提供了一个语言控制的分类法，用于分析代理任务中自然语言的歧义行为。
它包含一个带有验证器强制执行元数据的18项种子基准测试和一个54行的本地种子试点。
专家评估协议区分了任务成功、政策合规、安全风险、拒绝结果和评估者信心。
该方法论提供了用于验证安全评估和LLM裁判的法官有效性、诊断模糊性和分类法漂移指标。

重要性 1/3 具有差异化优势的新评测框架 arXiv cs.CL Evaluation & benchmarks Research paper