著者は、Surface Evolverツールを使用して複雑な物理シミュレーションを記述する大規模言語モデル(LLM)の能力を評価するために設計されたカスタムベンチマークであるSurface Evolver Benchを紹介しています。このツールは1992年にリリースされ、頂点、辺、面、体、制約、エネルギー、境界積分を含むカスタムデータファイルを定義することをユーザーに要求することで、液体表面をモデル化します。

  • gpt5.5が総合的に最良のモデルとして特定され、いくつかのタスクを解決できる唯一のモデルです。
  • glm5.2は、このベンチマークにおいて最良のオープンソースモデルとして注目されています。
  • このベンチマークは、ドキュメント参照、実装、シミュレーションの実行、デバッグを含む自然なエージェントループを利用しています。

この評価は、反復的なデバッグと複雑な仕様の遵守を必要とする、現在の手頃なモデルが細かく専門的なコーディングタスクを処理する能力を浮き彫りにしています。