media r/LocalLLaMA · hace 2 h · fuente: hace 9 d · open_models

GameCraft-Bench: ¿Pueden los agentes construir juegos jugables de extremo a extremo en un motor de juego real?

Traducido del English → Español

GameCraft-Bench evalúa si los modelos de lenguaje grandes pueden construir juegos jugables de extremo a extremo utilizando un motor de juego real. El benchmark incluye evaluaciones de modelos principales como Opus-4.7 y GPT-5.5, con interés en cómo los modelos de tamaño mediano (por ejemplo, 30-70B parámetros) se desempeñan en tareas de desarrollo de juegos.

Importancia 2/3 r/LocalLLaMA AI agents Code generation Evaluation & benchmarks

Leer original