Marco de Auto-Distilación Condicionada por Rúbrica

La Auto-Distilación Condicionada por Rúbrica introduce un marco que utiliza rúbricas estructuradas para proporcionar retroalimentación a nivel de token y de alta granularidad durante la auto-distilación de modelos de lenguaje de razonamiento. Al condicionar los modelos maestros en criterios a nivel de rúbrica, permite una asignación de crédito más precisa que las recompensas escalares, superando a GRPO y OPSD en 1.0 y 0.9 puntos, respectivamente, en promedio en benchmarks de razonamiento científico.

Benchmark	Modelo	Puntuación
GSM8K	rubric-conditioned self-distillation	1pts
MATH-500	rubric-conditioned self-distillation	0.9pts

Benchmarks