QMFOL: Оценка способности больших моделей к логическому мышлению с контролируемой логической сложностью

QMFOL — это автоматизированная система, генерирующая задачи логического мышления на монадическом первом порядке с количественной сложностью. Она создает 2880 экземпляров тестов на 960 конфигурациях, оценивая шесть больших моделей логического мышления и две большие языковые модели, демонстрируя снижение производительности и рост вычислительных затрат при росте логической сложности.