АртIFICИАЛЬНАЯ АНАЛИТИКА представила новую оценку агентов, которая оценивает способность больших языковых моделей планировать и выполнять задачи. Claude Fable и GLM 5.2 заняли лидирующие позиции в своих соответствующих группах, демонстрируя сильную производительность на этом неиспользованном бенчмарке.
Выпущена новая оценка агентов
Переведено с English → Русский