media r/LocalLLaMA · hace 1 h · fuente: hace 8 d · open_models

GLM-5.2 supera a GPT-5.5 en la evaluación AA-Briefcase

Traducido del English → Español

La nueva evaluación de trabajo del conocimiento agéntico de Artificial Analysis, AA-Briefcase, muestra que GLM-5.2 supera a GPT-5.5 en rendimiento. El benchmark evalúa la ejecución de tareas del mundo real y las capacidades de razonamiento en escenarios de trabajo del conocimiento.

Importancia 3/3 Supera un benchmark de un laboratorio puntero r/LocalLLaMA Zhipu AI OpenAI AI agents Benchmark results Evaluation & benchmarks

Leer original