Модель VibeThinker с 3 миллиардами параметров превосходит Opus 4.5 в задачах логического мышления с использованием новой методики обучения SFT+GRPO. Модель была представлена в статье, доступной на arXiv, с подробностями, размещёнными в посте на Reddit.