El autor evalúa a los LLM en la simulación del comportamiento de humedecimiento utilizando Surface Evolver, una herramienta de 1992 para modelar superficies líquidas. Los LLM se evalúan objetivamente comparando sus archivos generados contra implementaciones de referencia, con resultados que muestran el conteo de aprobaciones y los costos de tokens para cada modelo.
Mi micro-benchmark: ¿qué tan buenos son los LLM para simular el comportamiento de humedecimiento?
Traducido del English → Español