Проклятие множественных медиаторов: скрытые эффекты взаимодействия при активационном патчинге

Повторный вывод оценочной функции активационного патчинга из каузального медиантного анализа показывает, что естественный косвенный эффект (NIE) захватывает не только каузальный эффект через конкретный компонент, но и эффекты взаимодействия (INT). Эти члены INT измеряют, насколько каузальный эффект компонента зависит от состояния других компонентов в модели, ставя под сомнение предположение о том, что NIE изолирует индивидуальные вклады.

В контуре IOI GPT-2 компоненты с условной каузальной важностью либо невидимы, либо искусственно завышены при использовании стандартных оценщиков.
Дисперсия INT объясняет ранее задокументированную нестабильность показателей верности в исследованиях механистической интерпретируемости.
INT масштабируется с расстоянием между активациями чистого и патчингового компонентов и пренебрежимо мал, когда модель локально аффинна.
Эффекты взаимодействия разлагаются комбинаторно на попарные и более высокие порядковые групповые взаимодействия, масштабируясь с количеством медиаторов.

Авторы утверждают, что INT следует рассматривать как диагностический инструмент для исследований интерпретируемости, а не как помеху, которую нужно устранить. Его величина и знак сигнализируют о том, когда каузальные выводы зависят от промпта и когда жадное ранжирование компонентов на основе NIE упустит механизмы, обнаружимые только через комбинаторный поиск.