Penulis memperkenalkan Surface Evolver Bench, sebuah benchmark kustom yang dirancang untuk mengevaluasi kemampuan model bahasa besar (LLM) dalam menulis simulasi fisika kompleks menggunakan alat Surface Evolver. Alat ini, dirilis pada tahun 1992, memodelkan permukaan cairan dengan mengharuskan pengguna mendefinisikan file data kustom yang berisi titik sudut, tepi, wajah, tubuh, kendala, energi, dan integral batas.
- gpt5.5 diidentifikasi sebagai model terbaik secara keseluruhan, menjadi satu-satunya yang menyelesaikan beberapa tugas.
- glm5.2 dicatat sebagai model open-source terbaik untuk benchmark ini.
- Benchmark ini memanfaatkan loop agentic alami yang melibatkan konsultasi dokumentasi, implementasi, menjalankan simulasi, dan debugging.
Evaluasi ini menyoroti kemampuan model saat ini dalam menangani tugas pemrograman domain-spesifik yang rumit yang memerlukan debugging iteratif dan kepatuhan terhadap spesifikasi kompleks.