Бенчмарк Complexity Ceiling Benchmark: многодоменная оценка последовательного рассуждения при масштабировании глубины

Бенчмарк Complexity Ceiling Benchmark (CCB) оценивает, как способность языковых моделей к рассуждению снижается по мере увеличения количества необходимых последовательных шагов, фиксируя семантическое содержание и варьируя глубину задачи от 5 до 50. Исследование выявило постоянный геометрический спад на каждый шаг в трех различных режимах: отслеживание пространственного состояния с привязкой к контексту, манипуляция абстрактными символьными указателями и транзитивное реляционное выведение.

В ходе 6000 испытаний на пяти передовых и моделях с открытым весом (open-weight) LLM самые сильные модели сохраняли вероятность успеха более 0.92 при N=50 для первых двух режимов.
При транзитивном реляционном выведении все модели коллапсировали к N=5, а горизонт успешности в 50% лучшей модели ограничивался примерно 4.7 шагами.
Метрика на уровне трассировки (TFBC) показывает, что 14.5% правильных ответов были достигнуты посредством неверного промежуточного рассуждения.
Принудительноеverbose отслеживание состояния не улучшило производительность (p по Макнемару = 1.000), и средний шаг, на котором рассуждение расходится, предсказывает точность лучше, чем количество параметров.

CCB и ее модель геометрического спада сводят профиль долгосрочного рассуждения модели к одному интерпретируемому числу для каждого семейства задач, предоставляя стандартизированный метод оценки пределов рассуждения.