Это исследование исследует, улучшает ли подробное мышление по цепочке рассуждения больших языковых моделей за счёт увеличения вычислений или предоставления полезного семантического содержания. Авторы представляют доказательства из внутри распределённой выборки и контролируемых вмешательств для определения конкретных факторов, приводящих к улучшению производительности.

  • Внутри распределённый анализ по 25 моделям показал, что дополнительные токены практически не меняли точность при следовании тому же плану рассуждения.
  • Слепой анализ избыточных токенов выявил, что любые улучшения отслеживали содержание валидации и проверки, а не саму многословность.
  • Контролируемые вмешательства с использованием дизайна двойного валидатора показали, что подробные трассы умеренно улучшили точность (обычно на 1–4 пункта) в зависимости от качества текста.
  • При максимальной числовой редакции эффект усилился со средним увеличением в 3,24 раза по четырём арифметическим бенчмаркам.
  • Заполнители без рассуждений, сопоставленные по длине, не смогли восстановить ни одного из улучшений производительности, наблюдаемых в подробных трассах рассуждений.

Выводы сходятся к заключению, что важно содержание рассуждения и валидации, переносимое дополнительными токенами, а не просто их количество.