Модель VibeThinker с 3 миллиардами параметров превосходит Opus 4.5 в задачах логического мышления с использованием новой методики обучения SFT+GRPO. Модель была представлена в статье, доступной на arXiv, с подробностями, размещёнными в посте на Reddit.
VibeThinker: модель с 3 миллиардами параметров побеждает Opus 4.5 в задачах логического мышления
Переведено с English → Русский