Исследование показывает, что хотя большие модели рассуждения (LRM) и люди тратят больше времени на более сложные задачи, они существенно расходятся в том, как распределяют обдумывание внутри конкретных примеров. При совершении ошибок LRM генерируют больше токенов, чем при правильных ответах, тогда как люди делают наоборот, тратя меньше времени на промахи.

  • Исследование разделяет «регистрацию» (отслеживание сложности между примерами) и «распределение» (трату большего количества ресурсов на собственные ошибки по сравнению с успехами).
  • На публичном корпусе данных с сопоставленными результатами людей и LRM обе группы воспроизводят выравнивание между примерами в зависимости от сложности, но демонстрируют противоположные паттерны распределения.
  • Каждая протестированная LRM показала большой эффект при сравнении ошибок и правильных ответов (d Коэна = 1.47–3.13 на H-ARC), тогда как люди проявили обратный знак.
  • Это разделение сохраняется при учете фиксированных эффектов примеров, воспроизводится на разных наборах данных и отсутствует в базах без режима «мышления».
  • Поведение людей интерпретируется как вовлеченность против отказа, а поведение LRM обусловлено неопределенностью, ведущей к более длинным цепочкам рассуждений.

Это расхождение подчеркивает, что длина трека захватывает сигнал о сложности, но упускает базовую политику управления, предполагая, что текущие метрики могут маскировать фундаментальные различия в том, как агенты справляются с неудачами.