NVIDIA presenta Nemotron-TwoTower, un modelo de lenguaje por difusión que desacopla la representación del contexto y el denoising iterativo en dos redes separadas para superar las limitaciones de capacidad en los enfoques existentes. Construido sobre el modelo de pesos abiertos Nemotron-3-Nano-30B-A3B y entrenado con 2.1T tokens, conserva el 98.7% de la calidad de la línea base autoregresiva mientras logra una velocidad de generación en tiempo real 2.42X mayor.

  • La arquitectura utiliza una torre de contexto autoregresivo congelada para procesar causalmente los tokens limpios y una torre de denoising por difusión entrenable con atención de bloque bidireccional para refinar los bloques ruidosos.
  • El modelo se basa en Nemotron-3-Nano-30B-A3B, un modelo MoE híbrido Mamba-Transformer de 30B con pesos abiertos.
  • El entrenamiento se realizó con aproximadamente 2.1T tokens, dando como resultado un modelo que mantiene una alta calidad mientras mejora significativamente la velocidad de generación.

Este enfoque permite la generación paralela e iterativa sin sacrificar la calidad de los modelos autoregresivos tradicionales, ofreciendo una alternativa más eficiente para tareas de modelado de lenguaje.