arxiv
arXiv cs.LG
·
8 ч назад
Синки внимания и коллапс — универсальные следствия маршрутизации на основе контента
Исследование демонстрирует, что синки внимания, коллапс представлений и стратификация норм не являются уникальными для архитектур трансформеров, а представляют собой неотъемлемые следствия маршрутизации на основе контента при фиксированной метрике сходства. Устанавливается тождество, показывающее, что функции внимания softmax выступают в качестве агрегации с весами Больцмана по евклидовым расстояниям при постоянных нормах ключей, делая их нечувствительными к величине ключа из-за отсутствия специфического нормировочного члена. Эта рамка предсказывает, что любой маршрутизатор, использующий метрику, плохо согласованную с его представлениями, будет компенсировать это путем концентрации маршрутизации и коллапса маршрутизируемых представлений. Авторы проверяют эту гипотезу на разнообразных моделях, включая девять предварительно обученных трансформеров, графовые сети внимания, модели селективного пространственного состояния, рекуррентные миксеры и обучаемые остаточные слои. Экспериментальные результаты подтверждают, что все протестированные архитектуры демонстрируют этот идентичный признак коллапса независимо от их конкретной области или структуры. Кроме того, аблиационные исследования внутри модели выделяют механизм маршрутизации как основную причину, а не случайные динамики обучения. Показано, что начало этого явления зависит от силы позиционного тормоза, сопровождающего контентный счет, что может смещать эффект в пределах его диапазона. Однако лежащий в основе механизм остается и