La Auto-Distilación Condicionada por Rúbrica introduce un marco que utiliza rúbricas estructuradas para proporcionar retroalimentación a nivel de token y de alta granularidad durante la auto-distilación de modelos de lenguaje de razonamiento. Al condicionar los modelos maestros en criterios a nivel de rúbrica, permite una asignación de crédito más precisa que las recompensas escalares, superando a GRPO y OPSD en 1.0 y 0.9 puntos, respectivamente, en promedio en benchmarks de razonamiento científico.
arxiv
arXiv cs.CL
·
hace 2 h
·
fuente: hace 9 d
·
research
Marco de Auto-Distilación Condicionada por Rúbrica
Traducido del English → Español
Importancia 3/3
Supera un benchmark de un laboratorio puntero
Nueva función frente a los líderes
arXiv cs.CL
Allen AI
Microsoft Research
OpenAI
Evaluation & benchmarks
Reasoning models
Training methods