作者介绍了 Surface Evolver Bench,这是一个定制的基准测试,旨在评估大型语言模型使用 Surface Evolver 工具编写复杂物理模拟的能力。该工具于 1992 年发布,通过要求用户定义包含顶点、边、面、体、约束、能量和边界积分的自定义数据文件来对液体表面进行建模。

  • gpt5.5 被确定为整体最佳模型,是唯一解决了几项任务的模型。
  • glm5.2 被指出是该基准测试中最佳的开源模型。
  • 该基准测试利用了一个自然的智能体循环,涉及文档查阅、实现、模拟运行和调试。

此次评估突显了当前模型处理需要迭代调试并遵循复杂规范的复杂、特定领域编码任务的能力。