Бенчмарк Complexity Ceiling Benchmark: многодоменная оценка последовательного рассуждения при масштабировании глубины
Бенчмарк Complexity Ceiling Benchmark (CCB) оценивает, как способность языковых моделей к рассуждению снижается по мере увеличения количества необходимых последовательных шагов, фиксируя семантическое содержание и варьируя глубину задачи от 5 до 50. Исследование выявило постоянный геометрический спад на каждый шаг в трех различных режимах: отслеживание пространственного состояния с привязкой к контексту, манипуляция абстрактными символьными указателями и транзитивное реляционное выведение.