通过卡带蒸馏检测LLM的隐蔽偏见

研究人员推出了Distill to Detect (D2D)，这是一种通过将分布偏移转换为可检测文本，从而暴露大型语言模型中隐藏偏好偏见的技术。该方法使用称为“卡带”的KV-cache前缀适配器，以放大疑似模型与其基础版本之间的差异。

通过将前缀微调适配器转变为检测工具，D2D为审计已部署语言模型中的隐蔽行为提供了实用的构建模块。