Una evaluación humana en el tablero de Design Arena revela que GLM-5.2 tiene un rendimiento casi tan bueno como Fable 5 en tareas de desarrollo de juegos, ubicándose solo un paso por debajo. El modelo, basado en pesos abiertos y licencia MIT, se evalúa como equivalente en capacidad a los mejores modelos Claude disponibles, lo que sugiere que las pruebas estandarizadas ya pueden no reflejar con precisión el rendimiento en el mundo real.
La evaluación humana muestra que GLM-5.2 compite con los mejores modelos
Traducido del English → Español