Повторный вывод оценочной функции активационного патчинга из каузального медиантного анализа показывает, что естественный косвенный эффект (NIE) захватывает не только каузальный эффект через конкретный компонент, но и эффекты взаимодействия (INT). Эти члены INT измеряют, насколько каузальный эффект компонента зависит от состояния других компонентов в модели, ставя под сомнение предположение о том, что NIE изолирует индивидуальные вклады.
- В контуре IOI GPT-2 компоненты с условной каузальной важностью либо невидимы, либо искусственно завышены при использовании стандартных оценщиков.
- Дисперсия INT объясняет ранее задокументированную нестабильность показателей верности в исследованиях механистической интерпретируемости.
- INT масштабируется с расстоянием между активациями чистого и патчингового компонентов и пренебрежимо мал, когда модель локально аффинна.
- Эффекты взаимодействия разлагаются комбинаторно на попарные и более высокие порядковые групповые взаимодействия, масштабируясь с количеством медиаторов.
Авторы утверждают, что INT следует рассматривать как диагностический инструмент для исследований интерпретируемости, а не как помеху, которую нужно устранить. Его величина и знак сигнализируют о том, когда каузальные выводы зависят от промпта и когда жадное ранжирование компонентов на основе NIE упустит механизмы, обнаружимые только через комбинаторный поиск.