arxiv arXiv cs.CL · 1 小时前 · research

LACUNA：用于评估LLM遗忘定位精度的测试平台

译自 English → 中文

研究人员推出了LACUNA，这是第一个具有真实参数级定位的遗忘测试平台，旨在解决评估遗忘是否真正从模型参数中擦除知识的空白。该平台通过掩码持续预训练，将合成个体的PII注入到基于OLMo的1B和7B模型的预定义参数中。

LACUNA能够直接评估遗忘是否针对负责知识存储的权重。
基准测试显示，尽管当前SOTA方法在输出级别表现强劲，但其定位精度极低。
即使现有方法在输出级别看起来有效，它们仍然容易受到重新浮现攻击的影响。
成功的定位使得简单的基于梯度的遗忘能够实现强大的擦除效果和鲁棒性。

作者发布LACUNA以补充行为评估，并推动基于定位的稳健遗忘的进一步发展。

重要性 2/3 具有差异化优势的新评测框架 arXiv cs.CL Evaluation & benchmarks Safety & alignment