Surface Evolver Bench: Evaluación de LLMs en simulaciones físicas complejas

El autor presenta Surface Evolver Bench, un benchmark personalizado diseñado para evaluar la capacidad de los grandes modelos de lenguaje para escribir simulaciones físicas complejas utilizando la herramienta Surface Evolver. Esta herramienta, lanzada en 1992, modela superficies líquidas requiriendo que los usuarios definan archivos de datos personalizados que contengan vértices, aristas, caras, cuerpos, restricciones, energías e integrales de frontera.

gpt5.5 es identificada como el mejor modelo en general, siendo la única en resolver varias tareas.
glm5.2 es señalada como el mejor modelo de código abierto para este benchmark.
El benchmark utiliza un bucle agéntico natural que implica consulta de documentación, implementación, ejecución de simulación y depuración.

Esta evaluación destaca la capacidad de los modelos actuales para manejar tareas de codificación intrincadas y específicas del dominio que requieren depuración iterativa y adherencia a especificaciones complejas.