Повторный вывод оценочной функции активационного патчинга из каузального медиантного анализа показывает, что естественный косвенный эффект (NIE) захватывает не только каузальный эффект через конкретный компонент, но и эффекты взаимодействия (INT). Эти члены INT измеряют, насколько каузальный эффект компонента зависит от состояния других компонентов в модели, ставя под сомнение предположение о том, что NIE изолирует индивидуальные вклады.

  • В контуре IOI GPT-2 компоненты с условной каузальной важностью либо невидимы, либо искусственно завышены при использовании стандартных оценщиков.
  • Дисперсия INT объясняет ранее задокументированную нестабильность показателей верности в исследованиях механистической интерпретируемости.
  • INT масштабируется с расстоянием между активациями чистого и патчингового компонентов и пренебрежимо мал, когда модель локально аффинна.
  • Эффекты взаимодействия разлагаются комбинаторно на попарные и более высокие порядковые групповые взаимодействия, масштабируясь с количеством медиаторов.

Авторы утверждают, что INT следует рассматривать как диагностический инструмент для исследований интерпретируемости, а не как помеху, которую нужно устранить. Его величина и знак сигнализируют о том, когда каузальные выводы зависят от промпта и когда жадное ранжирование компонентов на основе NIE упустит механизмы, обнаружимые только через комбинаторный поиск.