लेखक Surface Evolver Bench पेश करते हैं, जो एक कस्टम बेंचमार्क है जिसे Surface Evolver टूल का उपयोग करके जटिल भौतिक सिमुलेशन लिखने की क्षमता के लिए बड़े भाषा मॉडलों का मूल्यांकन करने के लिए डिज़ाइन किया गया है। यह टूल, 1992 में जारी किया गया, द्रव सतहों को मॉडल करता है जिसमें उपयोगकर्ताओं को शीर्षबिंदुओं, किनारों, फेसों, बॉडीज़, बाधाओं, ऊर्जाओं और सीमा समाकलों वाले कस्टम डेटाफ़ाइल परिभाषित करने की आवश्यकता होती है।
- gpt5.5 को समग्र रूप से सर्वश्रेष्ठ मॉडल के रूप में पहचाना गया है, जो कई कार्यों को हल करने वाला एकमात्र मॉडल है।
- glm5.2 को इस बेंचमार्क के लिए सर्वश्रेष्ठ ओपन-सोर्स मॉडल के रूप में नोट किया गया है।
- बेंचमार्क दस्तावेज़ीकरण सलाह, कार्यान्वयन, सिमुलेशन चलाने और डिबगिंग को शामिल करने वाले एक प्राकृतिक एजेंटिक लूप का उपयोग करता है।
यह मूल्यांकन वर्तमान मॉडलों की जटिल, डोमेन-विशिष्ट कोडिंग कार्यों को संभालने की क्षमता को उजागर करता है जिसमें पुनरावृत्ति डिबगिंग और जटिल विनिर्देशों का पालन आवश्यक होता है।