media r/LocalLLaMA · 7d ago · open_models

GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine?

from English

GameCraft-Bench evaluates whether large language models can build playable games end-to-end using a real game engine. The benchmark includes assessments of major models like Opus-4.7 and GPT-5.5, with interest in how medium-sized models (e.g., 30-70B parameters) perform on game development tasks.

Importance 2/3 r/LocalLLaMA AI agents Code generation Evaluation & benchmarks

Read original