LIG: Методы интегрированных градиентов на уровне слоев для анализа потоков в трансформерах

LIG расширяет метод интегрированных градиентов на отображения множества-в-множество в трансформерах, позволяя проводить атрибуцию на уровне токенов внутри слоев. Метод анализирует согласованность атрибуции на уровне модулей и на уровне слоев и отслеживает поток информации через отдельные вклады внимания и MLP, используя вектор вложения целевого токена и нулевые или нулевые вклады внимания как базовые значения. LIG работает на границах модулей без необходимости переобучения или использования специальных интерпретаторов, предоставляя диагностический инструмент для анализа внутренних структур трансформеров.