El Benchmark del Límite de Complejidad (CCB) evalúa cómo el razonamiento de los modelos de lenguaje se degrada a medida que aumentan los pasos secuenciales requeridos, fijando el contenido semántico mientras varía la profundidad de la tarea de 5 a 50. El estudio revela una decadencia geométrica consistente por paso en tres regímenes distintos: seguimiento de estado espacial fundamentado, manipulación abstracta de punteros simbólicos e inferencia relacional transitiva.
- En 6.000 ensayos con cinco LLMs de vanguardia y de peso abierto, los modelos más fuertes mantuvieron una probabilidad de éxito mayor a 0.92 en N=50 para los dos primeros regímenes.
- En la inferencia relacional transitiva, todos los modelos colapsaron en N=5, con el horizonte de éxito del 50% del mejor modelo limitado a aproximadamente 4.7 pasos.
- Una métrica a nivel de traza (TFBC) indica que el 14.5% de las respuestas correctas se alcanzaron mediante un razonamiento intermedio incorrecto.
- El seguimiento forzado de estados detallados no mejoró el rendimiento (p=1.000 de McNemar), y el paso medio en el que diverge el razonamiento predice la precisión mejor que el recuento de parámetros.
CCB y su modelo de decadencia geométrica reducen el perfil de razonamiento a largo plazo de un modelo a un número interpretable por familia de tareas, proporcionando un método estandarizado para evaluar los límites del razonamiento.