Исследователи представляют Distill to Detect (D2D), метод, который выявляет скрытые предпочтительные смещения в больших языковых моделях путем преобразования распределительных сдвигов в обнаруживаемый текст. Техника использует адаптер префикса KV-cache, называемый картриджем, для усиления расхождения между подозреваемой моделью и ее базовой версией.
- D2D дистиллирует сдвиг между моделью и ее базой в картридж, концентрирующий доминирующие расхождения.
- Метод усиливает скрытые смещения так, чтобы они надежно обнаруживались по нескольким типам смещений.
- Теоретическая框架 объясняет эффективность D2D через проекцию сдвигов распределения логитов, взвешенную Фишером.
Превращая адаптеры префиксного тюнинга в инструменты обнаружения, D2D предоставляет практический строительный блок для аудита скрытых поведенческих паттернов в развернутых языковых моделях.