Nemotron-TwoTower: Диффузионное языковое моделирование с предварительно обученным авторегрессионным контекстом
NVIDIA представляет Nemotron-TwoTower, диффузионную языковую модель, которая разделяет представление контекста и итеративное удаление шума на две отдельные сети для преодоления ограничений пропускной способности существующих подходов. Построенная на основе модели с открытыми весами Nemotron-3-Nano-30B-A3B и обученная на 2,1 трлн токенов, она сохраняет 98,7% качества базовой авторегрессионной модели, достигая при этом в 2,42 раза более высокой пропускной способности генерации по реальному времени.