Zhipu AI — korshunov.ai — новости ML

Лаборатория · Zhipu AI

GLM-5.2 превосходит GPT-5.5 в оценке AA-Briefcase

Новая оценка агентных задач искусственного анализа, AA-Briefcase, показывает, что GLM-5.2 превосходит GPT-5.5 по производительности. Оценка оценивает выполнение реальных задач и способность к логическому мышлению в сценариях работы с знаниями.

media r/LocalLLaMA · 8 д назад

GLM-5.2 превышает 80% на Terminal-Bench

GLM-5.2 — первый открытый модель с весами, достигший точности 80% на Terminal-Bench и превосходящий все другие доступные открытые модели. Он также превосходит Gemini, что делает его моделью передовой категории при значительно более низкой стоимости.

media r/LocalLLaMA · 1 д назад

GLM 5.2 на Mac Studio ускорение PR

GLM 5.2 обеспечивает улучшенные скорости предварительной загрузки, превышающие 100 t/s при больших длинах контекста. Обновление снижает использование памяти, позволяя 4-битным квантованным моделям эффективно обрабатывать более 100 тысяч токенов контекста. Это улучшение подробно описано в PR от создателя oMLX.

media r/LocalLLaMA · 2 д назад

Человеческая оценка показывает, что GLM-5.2 конкурирует с лучшими моделями

Человеческая оценка на лидерборде Design Arena показывает, что GLM-5.2 демонстрирует почти такое же качество, как Fable 5 в задачах разработки игр, занимая лишь одну ступень ниже. Модель, основанная на открытых весах и лицензии MIT, оценивается как равнозначная по возможностям лучшим доступным моделям Claude, что указывает на то, что стандартизированные бенчмарки могут уже не отражать реальную производительность.

media Don't Worry About the Vase · 2 д назад

GLM-5.2 — новый лучший открытый модель

GLM-5.2 достигает результатов на тестах, близких к передовым уровням, сопоставимых с Opus 4.7 в задачах только с текстом и занимающих одно из ведущих мест среди открытых моделей на нескольких тестах. Это сильнейшая открытая модель, доступная в настоящее время, превосходящая предшественники и конкурентов, таких как GPT-5.5 и Fable, хотя она не достигает высоких результатов на специализированных тестах, таких как сопротивление сихофаническим тенденциям, и имеет ограниченные возможности в области зрения.

media Interconnects · 3 д назад

GLM-5.2 — шаг вперёд для открытых агентов

GLM-5.2, открытая модель ИИ, выпущенная Z.ai, установила новый уровень в программировании и общих показателях работы агентов. Она превосходит модели, такие как Claude Fable 5 и Gemini, и достигает или превосходит OpenAI's Opus 4.8 в режиме максимального мышления, становясь первым открытым моделью, которая чувствует себя естественно в программных средах как общий агент.

media AI News (smol.ai) · 4 д назад

Разрыв и прогресс открытия моделей GLM-5.2

Модель GLM-5.2 от Zhipu стала лучшей открытым весами, похвалена за свою производительность, приближенную к передовым, в повседневном использовании, с улучшением в задачах программирования и сокращением стоимости инференса на 1 млн токенов за счёт IndexShare. Она превзошла другие открытые модели в тестах по агентским задачам, достигнув 1266 Elo в тесте AA-Briefcase от Artificial Analysis, хотя только 3% задач были полностью выполнены лучшими моделями, что указывает на сохраняющиеся трудности в реальных долгосрочных агентских задачах.

media AI News (smol.ai) · 4 д назад

GLM-5.2 появляется как ведущая модель открытого веса для кодирования

GLM-5.2 широко считается первой моделью открытого веса, которая конкурирует с передовыми моделями, такими как Opus 4.8 и GPT-5.5, по своим возможностям. Практикующие отмечают сильное использование инструментов, долгосрочное планирование и поведение автономных подагентов, и консенсус о том, что модель теперь действительно функционирует в передовой области SWE. Появление модели подчеркивает растущую ценность открытых весов для конкуренции поставщиков, развертывания на локальных серверах и снижения зависимости от поставщиков.

media r/LocalLLaMA · 4 д назад

GLM-5.2 побеждает Гемини и GPT-5.4 в программировании, но является неэффективным

GLM-5.2 превосходит GPT-5.4 и всю линейку Гемини по производительности в программировании на бенчмарке DeepSWE. Однако он требует значительно большего количества токенов вывода, что делает его существенно менее эффективным с точки зрения затрат на задачу по сравнению с моделями, такими как GPT-5.5 и Claude Opus 4.8.

media r/LocalLLaMA · 5 д назад

GLM 5.2 достигает 98% максимальной интеллекта с менее чем половиной токенов

Согласно техническому отчету z_ai, модель GLM 5.2 демонстрирует 98% максимального интеллекта в задачах программирования, используя менее половины своего общего бюджета токенов. Эффективность логического мышления модели значительно улучшилась: количество токенов увеличилось с 16,7 к до 36,7 к при переходе от GLM 5.1 к GLM 5.2, хотя настройки высокого уровня могут негативно сказаться на производительности локальных аппаратных средств.

media r/LocalLLaMA · 5 д назад

Что более впечатляет: GLM 5.1 до 5.2 или Qwen 3.5 до 3.6?

Пост на Reddit сравнивает улучшения производительности GLM 5.1 до 5.2 и Qwen 3.5 до -3.6. В посте отмечается, что упоминание 'Döner' активирует специализированные веса GLM 5.2 на немецком языке, в то время как Qwen 3.6 оценивается с использованием 35B параметров и Quantization Unsloth Q8 K XL через llama.cpp.

media r/LocalLLaMA · 5 д назад

GLM-5.2 — это новый ведущий открытый модельный вес на Индексе искусственного аналитического интеллекта

GLM-5.2 был признан ведущей открытой моделью на Индексе искусственного аналитического интеллекта. Этот признание отражает его производительность и возможности в контексте открытого ИИ-моделирования.

media r/LocalLLaMA · 5 д назад

Выпущена новая оценка агентов

АртIFICИАЛЬНАЯ АНАЛИТИКА представила новую оценку агентов, которая оценивает способность больших языковых моделей планировать и выполнять задачи. Claude Fable и GLM 5.2 заняли лидирующие позиции в своих соответствующих группах, демонстрируя сильную производительность на этом неиспользованном бенчмарке.

media r/LocalLLaMA · 5 д назад

GLM-5.2 теперь может работать локально в llama.cpp и Unsloth Studio

GLM-5.2, самый сильный открытый модель до сих пор, теперь может работать локально с помощью llama.cpp и Unsloth Studio. Модель с квантованием на 2 бита сохраняет ~82% точности после сокращения размера с 1,51 ТБ до 238 ГБ, что составляет 84% сокращение, и совместима с установками на 256 ГБ ОЗУ или VRAM.

media Latent Space · 6 д назад

GLM-5.2 прошёл проверку на атмосферу, превзошёл GPT-5.5

GLM-5.2 прошёл проверку на атмосферу как передовая открытая модель, получив похвалу от Джереми Ховарда и превзойдя GPT-5.5 на новом бенчмарке по искусственному анализу, разработанном Artificial Analysis. Модель также получила подтверждение от сообщества /r/LocalLlama, что указывает на сильную практическую полезность и производительность.

media r/LocalLLaMA · 6 д назад

GLM-5.2 (744B, 2-бит) достигает 7,3 ток/с на 4×3090 с 192 ГБ ОЗУ

GLM-5.2 UD-IQ2_M работает со скоростью около 7,3 токенов в секунду на 4×RTX 3090 с 192 ГБ DDR5 ОЗУ при использовании llama.cpp с экспертным выгрузкой. Снижение квантования с IQ2 до IQ1 не привело к увеличению скорости, в то время как увеличение числа потоков на ЦП от 6 до 12 повысило производительность на 22%. Декодирование ограничено вычислительной мощностью ЦП, а не пропускной способностью памяти, и эксперты, выгруженные на GPU, должны быть явно распределены между GPU, чтобы избежать ошибок переполнения памяти.

media r/LocalLLaMA · 6 д назад

unsloth GLM-5.2-GGUF с 2-битной квантованией на 238 ГБ

Модель unsloth GLM-5.2-GGUF доступна с 2-битной квантованией, размером 238 ГБ. Она размещена на Hugging Face и поделена в посте в сообществе LocalLLaMA на Reddit.

media r/LocalLLaMA · 6 д назад

GLM-5.2 — лучшая открытая модель креативного письма

Оценка Сэма Пэча по критерию креативного письма на EQ Bench определяет GLM-5.2 как лучшую открытую модель креативного письма. Оценка основана на метриках производительности в тесте креативного письма EQ Bench.

media r/LocalLLaMA · 6 д назад

Мощь интеллекта лучше лежит в руках людей, чем в кабинетах магнатов

Проект PearlOS запустил открытую платформу для распределённого интеллекта, которая использует локальные модели для выполнения многомодальных задач. Она автоматически выбирает и переключается между наиболее эффективными моделями на основе критериев оценки, обеспечивая пользователям постоянный доступ к самым новым и наиболее мощным моделям, не завися от закрытых систем или подписок.

media r/LocalLLaMA · 7 д назад

У кого есть достаточно вычислительных ресурсов, чтобы создать дистилляционный датасет из GLM5.2?

Пользователь спрашивает, у кого есть достаточные вычислительные ресурсы, чтобы создать большой дистилляционный датасет из 700 000 до 1 миллиона примеров из GLM5.2. Цель — улучшить обучение более маленьких моделей, таких как Qwen3.5, и помочь более широкой сообществу.