На-поли-дистилляция (OPD) страдает от смещения позиции, при котором поздние токены обеспечивают плохую поддержку. Весовая настройка OPD (IW-OPD) присваивает динамические веса на основе расхождения распределений, приоритизируя ранние токены и подавляя поздние. IW-OPD сходится быстрее и достигает до 6,9 точек роста производительности на AIME-2025 по сравнению с стандартной OPD.
Весовое настройка на-поли-дистилляции решает смещение позиции
Переведено с English → Русский