VibeThinker, un modelo de lenguaje de 3 mil millones de parámetros, supera a Opus 4.5 en tareas de razonamiento utilizando un enfoque de entrenamiento SFT+GRPO novedoso. El modelo fue presentado en un artículo disponible en arXiv, con detalles compartidos en una publicación de Reddit.
VibeThinker: modelo de 3B parámetros supera a Opus 4.5 en razonamiento
Traducido del English → Español