media r/LocalLLaMA · 1 д назад · open_models

VibeThinker: модель с 3 миллиардами параметров побеждает Opus 4.5 в задачах логического мышления

Переведено с English → Русский

Модель VibeThinker с 3 миллиардами параметров превосходит Opus 4.5 в задачах логического мышления с использованием новой методики обучения SFT+GRPO. Модель была представлена в статье, доступной на arXiv, с подробностями, размещёнными в посте на Reddit.

Важность 2/3 r/LocalLLaMA Reasoning models Research paper

Оригинал