Мой новый бенчмарк: насколько хорошо LLM могут имитировать поведение смачивания?

Новый микробенчмарк LLM оценивает, насколько хорошо большие языковые модели могут моделировать границы твердого и жидкого вещества с использованием Surface Evolver, инструмента 1992 года для моделирования поверхностей жидкости. Бенчмарк требует от LLM написать файлы данных SE, определяющие геометрию и ограничения, через итеративный агентский процесс с объективной оценкой, предлагая специфическую задачу с реальной научной значимостью и редкими обучающими данными.