Surface Evolver Bench: Оценка LLM на сложных физических симуляциях

Автор представляет Surface Evolver Bench, пользовательский бенчмарк, предназначенный для оценки способности больших языковых моделей писать сложные физические симуляции с использованием инструмента Surface Evolver. Этот инструмент, выпущенный в 1992 году, моделирует поверхности жидкостей, требуя от пользователей определять пользовательские файлы данных, содержащие вершины, ребра, грани, тела, ограничения, энергии и граничные интегралы.

gpt5.5 определен как лучшая модель в целом, будучи единственной, решившей несколько задач.
glm5.2 отмечена как лучшая модель с открытым исходным кодом для этого бенчмарка.
Бенчмарк использует естественный агентный цикл, включающий консультацию документации, реализацию, запуск симуляции и отладку.

Эта оценка подчеркивает способность текущих моделей справляться со сложными, специфичными для домена задачами программирования, требующими итеративной отладки и соблюдения сложных спецификаций.