研究人员推出了Distill to Detect (D2D),这是一种通过将分布偏移转换为可检测文本,从而暴露大型语言模型中隐藏偏好偏见的技术。该方法使用称为“卡带”的KV-cache前缀适配器,以放大疑似模型与其基础版本之间的差异。
- D2D将模型与其基础版本之间的偏移蒸馏到一个集中主导差异的卡带中。
- 该方法放大了隐藏偏见,使其在多种偏见类型中均可可靠检测。
- 理论框架通过Fisher加权的logit分布偏移投影解释了D2D的有效性。
通过将前缀微调适配器转变为检测工具,D2D为审计已部署语言模型中的隐蔽行为提供了实用的构建模块。