La Destilación On-Policy Ponderada por Importancia Aborda el Sesgo de Posición

La Destilación On-Policy (OPD) sufre de sesgo de posición donde los tokens posteriores proporcionan una supervisión deficiente. La OPD ponderada por importancia (IW-OPD) asigna pesos dinámicos basados en la discrepancia de distribución, priorizando los tokens iniciales y suprimiendo los tardíos. IW-OPD converge más rápido y logra ganancias de rendimiento de hasta 6.9 puntos en AIME-2025 en comparación con OPD estándar.

Benchmarks