CombEval: бенчмарк для подсчёта комбинаторных задач в LLMs

CombEval — это динамический бенчмарк, который генерирует задачи подсчёта на естественном языке с проверенными ответами с использованием типизированных спецификаций Cofola. Он оценивает 11 больших языковых моделей и выявляет устойчивые сбои при обработке упорядоченных объектов, неотличимых элементов, позиционных ограничений и вложенных зависимостей, причём ошибки связаны с интерпретацией ограничений и принципов подсчёта.