Nemotron-TwoTower: Диффузионное языковое моделирование с предварительно обученным авторегрессионным контекстом

NVIDIA представляет Nemotron-TwoTower, диффузионную языковую модель, которая разделяет представление контекста и итеративное удаление шума на две отдельные сети для преодоления ограничений пропускной способности существующих подходов. Построенная на основе модели с открытыми весами Nemotron-3-Nano-30B-A3B и обученная на 2,1 трлн токенов, она сохраняет 98,7% качества базовой авторегрессионной модели, достигая при этом в 2,42 раза более высокой пропускной способности генерации по реальному времени.

Архитектура использует замороженную контекстную башню авторегрессии для каузальной обработки чистых токенов и обучаемую башню диффузионного денойзера с двунаправленным блочным вниманием для уточнения зашумленных блоков.
Модель основана на Nemotron-3-Nano-30B-A3B, гибридной MoE-модели Mamba-Transformer с открытыми весами объемом 30B параметров.
Обучение проводилось на примерно 2,1 трлн токенов, что позволило создать модель, сохраняющую высокое качество при значительном улучшении скорости генерации.

Этот подход позволяет осуществлять параллельную и итеративную генерацию без ущерба для качества традиционных авторегрессионных моделей, предлагая более эффективную альтернативу для задач языкового моделирования.