Surface Evolver Bench : Évaluation des LLM sur des simulations physiques complexes

L'auteur présente Surface Evolver Bench, un benchmark personnalisé conçu pour évaluer la capacité des grands modèles de langage (LLM) à écrire des simulations physiques complexes en utilisant l'outil Surface Evolver. Cet outil, publié en 1992, modélise les surfaces liquides en exigeant que les utilisateurs définissent des fichiers de données personnalisés contenant des sommets, des arêtes, des faces, des corps, des contraintes, des énergies et des intégrales de bord.

gpt5.5 est identifié comme le meilleur modèle global, étant le seul à résoudre plusieurs tâches.
glm5.2 est noté comme le meilleur modèle open-source pour ce benchmark.
Le benchmark utilise une boucle agentic naturelle impliquant la consultation de documentation, l'implémentation, l'exécution de la simulation et le débogage.

Cette évaluation met en évidence la capacité des modèles actuels à gérer des tâches de codage complexes et spécifiques au domaine qui nécessitent un débogage itératif et le respect de spécifications complexes.