JAMER presenta JamSet y JamBench, el primer conjunto de datos y benchmark de código de juegos a nivel de proyecto en un motor de juegos profesional. Construido a partir de 8,133 proyectos verificados de Game Jam, permite una evaluación determinista y revela un abismo de capacidad en los modelos de IA a medida que aumenta la escala del proyecto, con tasas de aprobación en tiempo de ejecución que caen de 80.4% a 5.7%.
JAMER: Conjunto de datos y benchmark de marco de código a nivel de proyecto
Traducido del English → Español