GameCraft-Bench evalúa si los modelos de lenguaje grandes pueden construir juegos jugables de extremo a extremo utilizando un motor de juego real. El benchmark incluye evaluaciones de modelos principales como Opus-4.7 y GPT-5.5, con interés en cómo los modelos de tamaño mediano (por ejemplo, 30-70B parámetros) se desempeñan en tareas de desarrollo de juegos.
GameCraft-Bench: ¿Pueden los agentes construir juegos jugables de extremo a extremo en un motor de juego real?
Traducido del English → Español