DreamReasoner-8B — это открытый блок-модель диффузии, демонстрирующая сильное рассуждение в длинной цепи мыслей. Систематическое исследование показывает, что малые размеры обучающих блоков сохраняют эффективность рассуждения, в то время как большие размеры снижают производительность. Обучение куррикулумом по размеру блоков постепенно переходит от мелких к крупным блокам, обеспечивая устойчивое и обобщаемое рассуждение в различных условиях инференса, с результатами, конкурирующими с Qwen3-8B на математических и кодовых тестах.
DreamReasoner-8B: обучение куррикулумом по размеру блоков для рассуждения на основе диффузии
Переведено с English → Русский