NVIDIA выпустила Nemotron-TwoTower-30B-A3B — языковую модель на основе диффузии

Компания NVIDIA выпустила модель Nemotron-TwoTower-30B-A3B-Base-BF16, построенную на базе Nemotron 3 Nano 30B-A3B. Эта архитектура отличается от стандартных авторегрессионных моделей за счет использования замороженной контекстной башни вместе с башней диффузионного шумоподавления. Система итеративно заполняет блоки токенов параллельно, а не генерирует их строго по одному. По словам NVIDIA, эта настройка маски-диффузии по умолчанию сохраняет 98,7% совокупного качества бенчмарков, характерного для авторегрессионной базовой модели. При сохранении высокого качества модель достигает в 2,42 раза большей пропускной способности генерации во времени выполнения. В релизе подчеркивается новый подход к языковому моделированию, сочетающий техники диффузии с возможностями больших языковых моделей.