Кадрово-условная самодистилляция представляет собой рамку, которая использует структурированные критерии для предоставления детализированного, уровня токена обратной связи во время самодистилляции рациональных языковых моделей. С использованием условий для учителей на уровне критериев кадров, достигается более точное назначение кредитов, чем скалярные вознаграждения, и превосходит GRPO и OPSD на 1,0 и 0,9 пунктов в среднем по наукоемким тестам на рациональность.
arxiv
arXiv cs.CL
·
7 д назад
·
research
Кадрово-условная самодистилляция
Переведено с English → Русский
Важность 3/3
Обходит бенчмарк топ-лаборатории
Новая фича по сравнению с лидерами
arXiv cs.CL
Allen AI
Microsoft Research
OpenAI
Evaluation & benchmarks
Reasoning models
Training methods