El Límite de Complejidad: Una Evaluación Multidominio del Razonamiento Secuencial Bajo Escalamiento de Profundidad
El Benchmark del Límite de Complejidad (CCB) evalúa cómo el razonamiento de los modelos de lenguaje se degrada a medida que aumentan los pasos secuenciales requeridos, fijando el contenido semántico mientras varía la profundidad de la tarea de 5 a 50. El estudio revela una decadencia geométrica consistente por paso en tres regímenes distintos: seguimiento de estado espacial fundamentado, manipulación abstracta de punteros simbólicos e inferencia relacional transitiva.