Новая архитектура трансформера в форме креста распределяет разную ширину слоев, расширяя ранние и поздние слои, при этом сужая средние. Это приводит к уменьшению средней ширины слоя, что позволяет сократить количество FLOP на 22% и объемы кэша KV на 15%, при этом превосходя однородные базовые модели по потере при моделировании языка в диапазоне от 200 миллионов до 2 миллиардов параметров.
Переменные ширинные трансформеры превосходят однородные архитектуры
Переведено с English → Русский