Автор проводит бенчмаркинг LLMs при имитации поведения смачивания с использованием Surface Evolver, инструмента 1992 года для моделирования жидких поверхностей. LLMs оцениваются объективно путем сравнения их сгенерированных файлов данных с эталонными реализациями, при этом результаты показывают количество прошедших тестов и стоимость токенов для каждого модели.
Мой микро-бенчмарк: насколько хорошо LLMs имитируют поведение смачивания?
Переведено с English → Русский