Este estudio investiga si el uso de prompts de pensamiento en cadena detallados mejora el razonamiento de los modelos de lenguaje grandes mediante un mayor cómputo o al proporcionar contenido semántico útil. Los autores presentan evidencia obtenida del muestreo dentro de la distribución e intervenciones controladas para determinar los factores específicos que impulsan las mejoras en el rendimiento.

  • El análisis dentro de la distribución a través de 25 modelos mostró que los tokens adicionales dejaron la precisión esencialmente sin cambios cuando se seguía el mismo plan de razonamiento.
  • El análisis ciego de los tokens excedentes reveló que cualquier ganancia se correlacionaba con el contenido de validación y verificación, no con la verbosidad en sí misma.
  • Las intervenciones controladas utilizando diseños de doble validador encontraron que las trazas detalladas mejoraban la precisión modestamente (típicamente entre 1 y 4 puntos) dependiendo de la calidad del texto.
  • Bajo una redacción numérica máxima, el efecto se amplificó con un aumento mediano de 3.24x en cuatro benchmarks aritméticos.
  • El relleno no razonante emparejado por longitud no logró recuperar ninguna de las ganancias de rendimiento observadas en las trazas de razonamiento detallado.

Los hallazgos convergen en la conclusión de que lo que importa es el contenido de razonamiento y validación transportado por los tokens adicionales, no meramente su cantidad.