Surface Evolver Bench：在复杂物理模拟上对LLM进行基准测试

作者介绍了 Surface Evolver Bench，这是一个定制的基准测试，旨在评估大型语言模型使用 Surface Evolver 工具编写复杂物理模拟的能力。该工具于 1992 年发布，通过要求用户定义包含顶点、边、面、体、约束、能量和边界积分的自定义数据文件来对液体表面进行建模。

此次评估突显了当前模型处理需要迭代调试并遵循复杂规范的复杂、特定领域编码任务的能力。