DreamReasoner-8B: Aprendizaje de currículo por tamaño de bloque para razonamiento con difusión

DreamReasoner-8B es un modelo de difusión por bloques de código abierto que demuestra una sólida capacidad de razonamiento en cadenas largas de pensamiento. Un estudio sistemático muestra que los tamaños pequeños de bloques de entrenamiento preservan la efectividad del razonamiento, mientras que los tamaños grandes degradan el rendimiento. El aprendizaje de currículo por tamaño de bloque transita gradualmente el entrenamiento desde bloques finos hasta gruesos, permitiendo un razonamiento robusto y generalizable en diferentes configuraciones de inferencia, con resultados competitivos frente a Qwen3-8B en benchmarks matemáticos y de código.

Benchmarks