CombEval: Benchmark para el conteo combinatorio en LLMs

CombEval es un benchmark dinámico que genera problemas de conteo en lenguaje natural con respuestas verificadas usando especificaciones Cofola tipadas. Evalúa 11 modelos de lenguaje grandes y revela fallos persistentes al manejar objetos ordenados, elementos indistinguibles, restricciones posicionales y dependencias anidadas, con errores arraigados en la interpretación de restricciones y principios de conteo.