GameCraft-Bench: Evaluando la generación de juegos de extremo a extremo
GameCraft-Bench introduce un benchmark con 140 tareas de Godot en 15 familias de juegos para evaluar la capacidad de los agentes de codificación para generar juegos jugables. Las evaluaciones muestran que el mejor agente logra solo un 41.46% de éxito, lo que indica desafíos significativos en la producción de juegos completos e interactivos con jugabilidad coherente y retroalimentación visual.