La Destilación On-Policy (OPD) sufre de sesgo de posición donde los tokens posteriores proporcionan una supervisión deficiente. Introducimos la Destilación On-Policy Ponderada por Importancia (IW-OPD), que asigna pesos basados en la discrepancia de distribución, priorizando los tokens iniciales. IW-OPD converge más rápido y logra ganancias de rendimiento de hasta 6.9 puntos en AIME-2025.
La Destilación On-Policy Ponderada por Importancia Aborda el Sesgo de Posición
Traducido del English → Español