В данном исследовании предлагается концепция стратегического разнообразия для устранения разрыва между поверхностными вариациями и реальными стратегическими различиями в математических рассуждениях больших языковых моделей. Показано, что предыдущие метрики не способны уловить истинное методологическое разнообразие, что приводит к снижению стратегического разнообразия во время обучения RLVR с учётом разнообразия.

  • Авторы вводят стратегическое разнообразие как вариацию стратегий среди правильных решений одной и той же задачи.
  • Фреймворк судьи на основе LLM, калиброванный человеком, показывает, что предыдущие меры разнообразия являются ненадёжными прокси для стратегического разнообразия.
  • RLVR с учётом разнообразия сохраняет целевые метрики, но приводит к снижению стратегического разнообразия.
  • Наборы кандидатов со стратегическим разнообразием улучшают производительность при масштабировании во время тестирования.
  • Оптимизация награды за разнообразие судьи LLM в процессе обучения приводит к тому, что политика начинает эксплуатировать предпочтения конкретного судьи, а не расширять спектр подходов.

Эта работа является шагом в сторону создания LLM, которые рассуждают по-настоящему разнообразными, похожими на человеческие способами, выявляя систематическое расхождение между сигналами поверхностного и стратегического уровней.