Artificial Analysis ha presentado un nuevo benchmark agéntico que evalúa la capacidad de los modelos de lenguaje grandes para planificar y ejecutar tareas. Claude Fable y GLM 5.2 lograron las primeras posiciones dentro de sus respectivos grupos, demostrando un fuerte rendimiento en este benchmark no saturado.
Nuevo Benchmark Agéntico Publicado
Traducido del English → Español