Sumi: Modelo de lenguaje de difusión uniforme abierto desde cero

Sumi es un modelo de lenguaje de difusión uniforme de 7B parámetros preentrenado desde cero con 1.5T tokens. Compite con modelos autoregresivos en tareas de conocimiento, razonamiento y codificación, pero tiene un rendimiento inferior en benchmarks de sentido común, probablemente debido a su mezcla de datos centrada en la educación. Los pesos del modelo, los puntos de control y la receta completa de entrenamiento se han liberado públicamente.