CombEval es un benchmark dinámico que genera problemas de conteo en lenguaje natural con respuestas verificadas usando especificaciones Cofola tipadas. Evalúa 11 modelos de lenguaje grandes y revela fallos persistentes al manejar objetos ordenados, elementos indistinguibles, restricciones posicionales y dependencias anidadas, con errores arraigados en la interpretación de restricciones y principios de conteo.