Люди отказываются от усилий, модели рассуждения продолжают: разделение регистрации сложности и распределения обдумывания

Исследование показывает, что хотя большие модели рассуждения (LRM) и люди тратят больше времени на более сложные задачи, они существенно расходятся в том, как распределяют обдумывание внутри конкретных примеров. При совершении ошибок LRM генерируют больше токенов, чем при правильных ответах, тогда как люди делают наоборот, тратя меньше времени на промахи.

Исследование разделяет «регистрацию» (отслеживание сложности между примерами) и «распределение» (трату большего количества ресурсов на собственные ошибки по сравнению с успехами).
На публичном корпусе данных с сопоставленными результатами людей и LRM обе группы воспроизводят выравнивание между примерами в зависимости от сложности, но демонстрируют противоположные паттерны распределения.
Каждая протестированная LRM показала большой эффект при сравнении ошибок и правильных ответов (d Коэна = 1.47–3.13 на H-ARC), тогда как люди проявили обратный знак.
Это разделение сохраняется при учете фиксированных эффектов примеров, воспроизводится на разных наборах данных и отсутствует в базах без режима «мышления».
Поведение людей интерпретируется как вовлеченность против отказа, а поведение LRM обусловлено неопределенностью, ведущей к более длинным цепочкам рассуждений.

Это расхождение подчеркивает, что длина трека захватывает сигнал о сложности, но упускает базовую политику управления, предполагая, что текущие метрики могут маскировать фундаментальные различия в том, как агенты справляются с неудачами.