Sumi es un modelo de lenguaje de difusión uniforme de 7B parámetros preentrenado desde cero con 1.5T tokens. Compite con modelos autoregresivos en tareas de conocimiento, razonamiento y codificación, pero tiene un rendimiento inferior en benchmarks de sentido común, probablemente debido a su mezcla de datos centrada en la educación. Los pesos del modelo, los puntos de control y la receta completa de entrenamiento se han liberado públicamente.
Sumi: Modelo de lenguaje de difusión uniforme abierto desde cero
Traducido del English → Español