Измеряем ли мы стратегию или формулировку? Разрыв между поверхностным и стратегическим разнообразием в математических рассуждениях LLM
В данном исследовании предлагается концепция стратегического разнообразия для устранения разрыва между поверхностными вариациями и реальными стратегическими различиями в математических рассуждениях больших языковых моделей. Показано, что предыдущие метрики не способны уловить истинное методологическое разнообразие, что приводит к снижению стратегического разнообразия во время обучения RLVR с учётом разнообразия.