La nueva evaluación de trabajo del conocimiento agéntico de Artificial Analysis, AA-Briefcase, muestra que GLM-5.2 supera a GPT-5.5 en rendimiento. El benchmark evalúa la ejecución de tareas del mundo real y las capacidades de razonamiento en escenarios de trabajo del conocimiento.
GLM-5.2 supera a GPT-5.5 en la evaluación AA-Briefcase
Traducido del English → Español