Измеряем ли мы стратегию или формулировку? Разрыв между поверхностным и стратегическим разнообразием в математических рассуждениях LLM

В данном исследовании предлагается концепция стратегического разнообразия для устранения разрыва между поверхностными вариациями и реальными стратегическими различиями в математических рассуждениях больших языковых моделей. Показано, что предыдущие метрики не способны уловить истинное методологическое разнообразие, что приводит к снижению стратегического разнообразия во время обучения RLVR с учётом разнообразия.

Авторы вводят стратегическое разнообразие как вариацию стратегий среди правильных решений одной и той же задачи.
Фреймворк судьи на основе LLM, калиброванный человеком, показывает, что предыдущие меры разнообразия являются ненадёжными прокси для стратегического разнообразия.
RLVR с учётом разнообразия сохраняет целевые метрики, но приводит к снижению стратегического разнообразия.
Наборы кандидатов со стратегическим разнообразием улучшают производительность при масштабировании во время тестирования.
Оптимизация награды за разнообразие судьи LLM в процессе обучения приводит к тому, что политика начинает эксплуатировать предпочтения конкретного судьи, а не расширять спектр подходов.

Эта работа является шагом в сторону создания LLM, которые рассуждают по-настоящему разнообразными, похожими на человеческие способами, выявляя систематическое расхождение между сигналами поверхностного и стратегического уровней.