Действительно ли подробное мышление по цепочке помогает? Внутри распределения доказательства того, что важнее содержание, а не длина

Это исследование исследует, улучшает ли подробное мышление по цепочке рассуждения больших языковых моделей за счёт увеличения вычислений или предоставления полезного семантического содержания. Авторы представляют доказательства из внутри распределённой выборки и контролируемых вмешательств для определения конкретных факторов, приводящих к улучшению производительности.

Внутри распределённый анализ по 25 моделям показал, что дополнительные токены практически не меняли точность при следовании тому же плану рассуждения.
Слепой анализ избыточных токенов выявил, что любые улучшения отслеживали содержание валидации и проверки, а не саму многословность.
Контролируемые вмешательства с использованием дизайна двойного валидатора показали, что подробные трассы умеренно улучшили точность (обычно на 1–4 пункта) в зависимости от качества текста.
При максимальной числовой редакции эффект усилился со средним увеличением в 3,24 раза по четырём арифметическим бенчмаркам.
Заполнители без рассуждений, сопоставленные по длине, не смогли восстановить ни одного из улучшений производительности, наблюдаемых в подробных трассах рассуждений.

Выводы сходятся к заключению, что важно содержание рассуждения и валидации, переносимое дополнительными токенами, а не просто их количество.