Символьная механистическая атрибуция данных: отслеживание влияния обучения на выученные поведенческие политики

Авторы представляют Symbolic Mechanistic Data Attribution (SMDA), фреймворк, который атрибутирует обучающие пары интерпретируемым символьным политикам, управляющим поведением модели, сокращая разрыв между механистическими цепями и высокоуровневыми решениями.

SMDA подгоняет Ridge регрессию в замкнутой форме по признакам sparse autoencoder для моделирования целевого поведения и аналитически декомпозирует, как каждый пример supervised fine-tuning сдвигает эту политику через пути активации признаков и вероятности вывода.
Фреймворк дистиллирует символьную политику для поведения отказа в Llama-3.2-3B-Instruct и анализирует 200 обучающих пар SFT, чтобы выявить систематические пробелы в поведении безопасности базовой модели.
Анализ показывает, что декомпозиция по признакам механистически объясняет, почему вредоносные и безвредные пары оказывают качественно разное влияние, тогда как отдельные обучающие пары часто демонстрируют перекрестную интерференцию признаков.

Этот подход дает диагностический инструмент, который является более детализированным, чем функции влияния черного ящика, и более масштабируемым, чем ручной анализ цепей.