يقدم المؤلف Surface Evolver Bench، وهو معيار مخصص صُمم لتقييم قدرة نماذج اللغات الكبيرة (LLMs) على كتابة محاكيات فيزيائية معقدة باستخدام أداة Surface Evolver. تُصمم هذه الأداة، التي أُصدرت عام 1992، الأسطح السائلة من خلال مطالبة المستخدمين بتعريف ملفات بيانات مخصصة تحتوي على رؤوس، حواف، وجوه، أجسام، قيود، طاقات، وتكاملات حدودية.
- تم تحديد gpt5.5 كأفضل نموذج بشكل عام، كونه الوحيد الذي حل عدة مهام.
- يُشار إلى glm5.2 كأفضل نموذج مفتوح المصدر لهذا المعيار.
- يستخدم المعيار حلقة عمل طبيعية تتضمن استشارة الوثائق، التنفيذ، تشغيل المحاكاة، وتصحيح الأخطاء.
تسلط هذه التقييمات الضوء على قدرة النماذج الحالية على التعامل مع مهام برمجية متخصصة ومعقدة تتطلب تصحيح أخطاء تكراري والالتزام بمواصفات معقدة.