Un estudio revela que, aunque los grandes modelos de razonamiento (LRM) y los humanos dedican más tiempo a problemas más difíciles, divergen significativamente en cómo asignan la deliberación dentro de elementos específicos. Al cometer errores, los LRM generan más tokens que cuando aciertan, mientras que los humanos hacen lo contrario, dedicando menos tiempo a los ensayos que fallan.

  • La investigación separa el "registro" (seguimiento de la dificultad entre elementos) de la "asignación" (dedicar más tiempo a los propios fracasos en comparación con los éxitos).
  • En un corpus público emparejado humano-LRM, ambos grupos reproducen la alineación interelemento con la dificultad pero muestran patrones de asignación opuestos.
  • Cada LRM evaluado mostró un gran efecto de error vs. acierto (d de Cohen = 1.47-3.13 en H-ARC), mientras que los humanos exhibieron el signo opuesto.
  • La disociación se mantiene bajo efectos fijos por elemento, se replica en varios conjuntos de datos y está ausente en las líneas base no pensantes.
  • El comportamiento humano se interpreta como compromiso versus abandono, mientras que el comportamiento del LRM está impulsado por la incertidumbre que conduce a cadenas más largas.

Esta divergencia destaca que la longitud de la traza captura una señal de dificultad pero pierde la política de control subyacente, lo que sugiere que las métricas actuales pueden ocultar diferencias fundamentales en cómo los agentes manejan el fracaso.