Prism Transformer вводит прогрессивное расписание голов, которое изменяет количество голов внимания между слоями, начиная с меньшего числа более широких голов в ранних слоях и монотонно увеличивая их количество по мере углубления. Этот подход бросает вызов стандартному равномерному распределению, устраняя различные структурные потребности ранних и поздних слоев без добавления архитектурных накладных расходов.
- Ранние слои используют широкие подпространства на одну голову (dh=256) для захвата богатых локальных паттернов, тогда как поздние слои используют множество узких голов для специализированной декомпозиции.
- Матрицы весов сохраняют стандартные формы dmodel×dmodel, оставляя количество параметров нейтральным.
Общее количество FLOPs остается математически инвариантным к количеству голов, обеспечивая вычислительную нейтральность.
Степени двойки для размерностей голов (dh ∈ {256, 128}) сохраняют выравнивание Tensor Core для обеспечения нейтральности пропускной способности.
Результаты показывают меньшую ошибку валидации на каждом масштабе по сравнению с базовыми вариантами с равномерным распределением при идентичном количестве токенов/сек и времени выполнения.
Модель демонстрирует преимущества или паритет на бенчмарках, включая PIQA, WinoGrande, HellaSwag и ARC-Easy.
Анализ расстояния внимания по слоям подтверждает, что преимущество является структурным, поскольку ранние слои Prism сначала обращают внимание локально, прежде чем переключиться на глобальную интеграцию. Реализация требует только изменения в одну строку для каждого слоя внимания, чтобы сделать количество голов зависимым от слоя.