La maldición de los múltiples mediadores: Efectos de interacción ocultos en el parcheo de activaciones

Una nueva derivación del estimador de parcheo de activaciones desde el análisis de mediación causal revela que el efecto indirecto natural (NIE) captura no solo el efecto causal a través de un componente específico, sino también efectos de interacción (INT). Estos términos INT miden cuánto depende el efecto causal de un componente del estado de otros componentes en el modelo, desafiando la suposición de que el NIE aísla las contribuciones individuales.

En el circuito IOI de GPT-2, los componentes con importancia causal condicional son invisibles o artificialmente inflados al usar estimadores estándar.
La varianza del INT explica la inestabilidad previamente documentada de las puntuaciones de fidelidad en estudios de interpretabilidad mecanística.
El INT escala con la distancia entre las activaciones de los componentes limpios y parcheados, y es despreciable cuando el modelo es localmente afín.
Los efectos de interacción se descombinan combinatoriamente en interacciones de pares y de grupos de orden superior, escalando con el número de mediadores.

Los autores argumentan que el INT debe tratarse como un diagnóstico para estudios de interpretabilidad en lugar de una molestia a eliminar. Su magnitud y signo indican cuándo las conclusiones causales dependen del prompt y cuándo la clasificación greedy de componentes basada en NIE pasará por alto mecanismos descubribles solo mediante búsqueda combinatoria.