Nemotron-TwoTower: Modelado de lenguaje con difusión utilizando contexto autoregresivo preentrenado

NVIDIA presenta Nemotron-TwoTower, un modelo de lenguaje por difusión que desacopla la representación del contexto y el denoising iterativo en dos redes separadas para superar las limitaciones de capacidad en los enfoques existentes. Construido sobre el modelo de pesos abiertos Nemotron-3-Nano-30B-A3B y entrenado con 2.1T tokens, conserva el 98.7% de la calidad de la línea base autoregresiva mientras logra una velocidad de generación en tiempo real 2.42X mayor.

La arquitectura utiliza una torre de contexto autoregresivo congelada para procesar causalmente los tokens limpios y una torre de denoising por difusión entrenable con atención de bloque bidireccional para refinar los bloques ruidosos.
El modelo se basa en Nemotron-3-Nano-30B-A3B, un modelo MoE híbrido Mamba-Transformer de 30B con pesos abiertos.
El entrenamiento se realizó con aproximadamente 2.1T tokens, dando como resultado un modelo que mantiene una alta calidad mientras mejora significativamente la velocidad de generación.

Este enfoque permite la generación paralela e iterativa sin sacrificar la calidad de los modelos autoregresivos tradicionales, ofreciendo una alternativa más eficiente para tareas de modelado de lenguaje.