media r/LocalLLaMA · hace 2 h · fuente: hace 4 d · open_models

VibeThinker: modelo de 3B parámetros supera a Opus 4.5 en razonamiento

Traducido del English → Español

VibeThinker, un modelo de lenguaje de 3 mil millones de parámetros, supera a Opus 4.5 en tareas de razonamiento utilizando un enfoque de entrenamiento SFT+GRPO novedoso. El modelo fue presentado en un artículo disponible en arXiv, con detalles compartidos en una publicación de Reddit.

Importancia 2/3 r/LocalLLaMA Reasoning models Research paper

Leer original