LIG: Gradientes Integrados por Capa para Análisis de Flujo en Transformers
LIG extiende los Gradientes Integrados a mapas conjunto-a-conjunto en Transformers, permitiendo la atribución a nivel de token dentro de las capas. Analiza la consistencia de la atribución módulo por módulo y a lo largo de toda la capa, y rastrea el flujo de información mediante contribuciones separadas de atención y MLP, utilizando como líneas base la incrustación del token objetivo y salidas con cero o atención nula. LIG opera en los límites de los módulos sin necesidad de reentrenamiento ni intérpretes personalizados, ofreciendo una herramienta XAI de diagnóstico para los componentes internos de Transformers.