Дистилляция для обнаружения скрытых смещений LLM через картриджную дистилляцию

Исследователи представляют Distill to Detect (D2D), метод, который выявляет скрытые предпочтительные смещения в больших языковых моделях путем преобразования распределительных сдвигов в обнаруживаемый текст. Техника использует адаптер префикса KV-cache, называемый картриджем, для усиления расхождения между подозреваемой моделью и ее базовой версией.

D2D дистиллирует сдвиг между моделью и ее базой в картридж, концентрирующий доминирующие расхождения.
Метод усиливает скрытые смещения так, чтобы они надежно обнаруживались по нескольким типам смещений.
Теоретическая框架 объясняет эффективность D2D через проекцию сдвигов распределения логитов, взвешенную Фишером.

Превращая адаптеры префиксного тюнинга в инструменты обнаружения, D2D предоставляет практический строительный блок для аудита скрытых поведенческих паттернов в развернутых языковых моделях.