저자는 Surface Evolver 도구를 사용하여 복잡한 물리 시뮬레이션을 작성하는 대규모 언어 모델(LLM)의 능력을 평가하기 위해 설계된 맞춤형 벤치마크인 Surface Evolver Bench를 소개합니다. 이 도구는 1992년에 출시되었으며, 꼭짓점, 모서리, 면, 몸체, 제약 조건, 에너지 및 경계 적분을 포함하는 사용자 정의 데이터 파일을 정의하도록 요구함으로써 액체 표면을 모델링합니다.

  • gpt5.5는 여러 작업을 해결할 수 있는 유일한 모델로 전체적으로 가장 우수한 모델로 식별되었습니다.
  • glm5.2는 이 벤치마크를 위해 최고의 오픈소스 모델로 주목받고 있습니다.
  • 이 벤치마크는 문서 참조, 구현, 시뮬레이션 실행 및 디버깅을 포함하는 자연스러운 에이전트 루프를 활용합니다.

이 평가는 반복적인 디버깅과 복잡한 사양 준수를 필요로 하는 세분화된 도메인 특화 코딩 작업을 처리할 수 있는 현재 모델의 능력을 강조합니다.