Кадрово-условная самодистилляция представляет собой рамку, которая использует структурированные критерии для предоставления детализированных, уровня токена обратной связи во время самодистилляции рациональных языковых моделей. При условии учитывания учителей на уровне критериев кадров, достигается более точное присвоение кредитов по сравнению с скалярными вознаграждениями, превосходя GRPO и OPSD на 1,0 и 0,9 пунктов в среднем по научным рациональным тестам.
arxiv
arXiv cs.AI
·
7 д назад
·
research
Кадрово-условная самодистилляция
Переведено с English → Русский
Важность 3/3
Обходит бенчмарк топ-лаборатории
Новая фича по сравнению с лидерами
arXiv cs.AI
Allen AI
Microsoft Research
OpenAI
Evaluation & benchmarks
Reasoning models
Training methods