Surface Evolver Bench: Avaliando LLMs em Simulações Físicas Complexas

O autor apresenta o Surface Evolver Bench, um benchmark personalizado projetado para avaliar a capacidade dos grandes modelos de linguagem de escrever simulações físicas complexas usando a ferramenta Surface Evolver. Esta ferramenta, lançada em 1992, modela superfícies líquidas exigindo que os usuários definam arquivos de dados personalizados contendo vértices, arestas, faces, corpos, restrições, energias e integrais de fronteira.

gpt5.5 é identificada como o melhor modelo geral, sendo a única a resolver várias tarefas.
glm5.2 é notada como o melhor modelo de código aberto para este benchmark.
O benchmark utiliza um loop agêntico natural envolvendo consulta de documentação, implementação, execução da simulação e depuração.

Esta avaliação destaca a capacidade dos modelos atuais de lidar com tarefas de codificação intrincadas e específicas do domínio que requerem depuração iterativa e aderência a especificações complexas.