Nemotron-TwoTower: Modelado de lenguaje con difusión utilizando contexto autoregresivo preentrenado
NVIDIA presenta Nemotron-TwoTower, un modelo de lenguaje por difusión que desacopla la representación del contexto y el denoising iterativo en dos redes separadas para superar las limitaciones de capacidad en los enfoques existentes. Construido sobre el modelo de pesos abiertos Nemotron-3-Nano-30B-A3B y entrenado con 2.1T tokens, conserva el 98.7% de la calidad de la línea base autoregresiva mientras logra una velocidad de generación en tiempo real 2.42X mayor.