Источник · r/LocalLLaMA
media r/LocalLLaMA · 6 д назад

GLM-5.2 превосходит GPT-5.5 в оценке AA-Briefcase

Новая оценка агентных задач искусственного анализа, AA-Briefcase, показывает, что GLM-5.2 превосходит GPT-5.5 по производительности. Оценка оценивает выполнение реальных задач и способность к логическому мышлению в сценариях работы с знаниями.

media r/LocalLLaMA · 9 д назад

GLM-5.2 превышает 80% на Terminal-Bench

GLM-5.2 — первый открытый модель с весами, достигший точности 80% на Terminal-Bench и превосходящий все другие доступные открытые модели. Он также превосходит Gemini, что делает его моделью передовой категории при значительно более низкой стоимости.

media r/LocalLLaMA · 9 д назад

HalBench проверяет 29 открытых моделей на сикофантизм и халлюцинации

HalBench оценивает 29 открытых моделей языковых моделей на специальном бенчмарке для сикофантизма и халлюцинаций. Qwen 3.6 и Gemma 4 превосходят более крупные модели, при этом Qwen 3.6 достигает 36,6% отклонения — выше, чем у GPT-5.4 и Gemini 3.1 Pro. Размер модели не коррелирует с честными ответами, что указывает на то, что архитектура и обучающие данные важнее, чем количество параметров.

media r/LocalLLaMA · 6 д назад

Охо-Сейт-Университет выпускает открытый Deep Research-агент QUEST-35B

Исследователи из Охо-Сейт-Университета обучили агента Deep Research QUEST-35B с использованием приблизительно 32 GPU H100 и 8 000 синтетических образцов. Они опубликовали рецепт обучения, код, веса и датасеты, при этом результаты тестирования показывают конкурентоспособную производительность по сравнению с ведущими закрытыми системами Deep Research.

media r/LocalLLaMA · 6 д назад

GLM-5.2 теперь может работать локально в llama.cpp и Unsloth Studio

GLM-5.2, самый сильный открытый модель до сих пор, теперь может работать локально с помощью llama.cpp и Unsloth Studio. Модель с квантованием на 2 бита сохраняет ~82% точности после сокращения размера с 1,51 ТБ до 238 ГБ, что составляет 84% сокращение, и совместима с установками на 256 ГБ ОЗУ или VRAM.

media r/LocalLLaMA · 6 д назад

GLM-5.2 (744B, 2-бит) достигает 7,3 ток/с на 4×3090 с 192 ГБ ОЗУ

GLM-5.2 UD-IQ2_M работает со скоростью около 7,3 токенов в секунду на 4×RTX 3090 с 192 ГБ DDR5 ОЗУ при использовании llama.cpp с экспертным выгрузкой. Снижение квантования с IQ2 до IQ1 не привело к увеличению скорости, в то время как увеличение числа потоков на ЦП от 6 до 12 повысило производительность на 22%. Декодирование ограничено вычислительной мощностью ЦП, а не пропускной способностью памяти, и эксперты, выгруженные на GPU, должны быть явно распределены между GPU, чтобы избежать ошибок переполнения памяти.

media r/LocalLLaMA · 7 д назад

Калибровка 2-битных GGUF для задач агентного программирования

2-битные квантованные версии Qwopus3.6-27B-Coder, калиброванные на реальных журналах агентного программирования, достигают 63% успешного прохождения на SWE-rebench. Версия IQ2_M превосходит некалиброванные версии и соперничает с Q5_K_M по показателю успешного прохождения, несмотря на то, что она вдвое меньше, с улучшенной устойчивостью к циклам и более быстрой декодировкой благодаря объединенному MTP.

media r/LocalLLaMA · 7 д назад

North Mini Code: 4-битная квантование, поддержка Ollama и OpenRouter

Cohere Labs выпустил версию North Mini Code с квантованием на 4 бита на Hugging Face, что сократило её размер до примерно 20 ГБ для локальной работы на устройствах, таких как Mac. Модель теперь поддерживается в Ollama, локальных средах выполнения на базе llama.cpp, и через API OpenRouter, что улучшает доступность для разработчиков.

media r/LocalLLaMA · 7 д назад

Laguna M.1: 225B параметр модель MoE для агентного кодирования

Laguna M.1 — это модель с 225B параметрами и 23B активными параметрами на каждый токен, разработанная для агентного кодирования и задач с длинным горизонтом. Она достигает конкурентоспособных результатов на SWE-bench Verified (74,6%), SWE-bench Multilingual (63,1%) и Terminal-Bench 2.0 (45,8%), превосходя модели, такие как Devstral 2 и GLM-4.7, на ключевых тестах.

media r/LocalLLaMA · 7 д назад

mistral.rs v0.8.10 добавляет поддержку /v1/skills для локальных моделей

mistral.rs v0.8.10 вводит открытую совместимую с OpenAI функцию агентов навыков через конечную точку /v1/skills, позволяющую локальным моделям выполнять инструкции и скрипты в определённых областях без зависимости от API frontier. Обновление поддерживает инструменты, такие как загрузка и скачивание файлов через /v1/files, и включает предварительно скомпилированные бинарники для Linux, macOS и Windows.

media r/LocalLLaMA · 7 д назад

Квантование кэша KV NVFP4 на SM120 сделает системы с 32 ГБ ОЗУ очень мощными

Qwen3.6-27B работает со скоростью около 60 токенов в секунду на 32 ГБ ОЗУ с квантованием кэша KV в формате FP8. Квантование кэша KV NVFP4 на SM120 может значительно повысить производительность на таких системах, хотя текущая реализация пока недоступна.

media r/LocalLLaMA · 7 д назад

Мощь интеллекта лучше лежит в руках людей, чем в кабинетах магнатов

Проект PearlOS запустил открытую платформу для распределённого интеллекта, которая использует локальные модели для выполнения многомодальных задач. Она автоматически выбирает и переключается между наиболее эффективными моделями на основе критериев оценки, обеспечивая пользователям постоянный доступ к самым новым и наиболее мощным моделям, не завися от закрытых систем или подписок.

media r/LocalLLaMA · 7 д назад

ОПЕН-СОУС-модели decisively overtook proprietary models in market share

На основании данных OpenRouter за последние три месяца, открытые модели превзошли проприетарные модели по доле рынка. Анализ показывает значительный сдвиг в сторону открытых языковых моделей в общей экосистеме ИИ.

media r/LocalLLaMA · 7 д назад

Запуск Keye-VL-2.0-30B-A3B с продвинутыми возможностями понимания видео и функциями агента

Keye-VL-2.0-30B-A3B — это мультимодальный модель с 30 миллиардами параметров, разработанный для понимания длинных видео и функционирования агента. Она превосходит открытые конкурентов и достигает уровня Gemini-3-Flash в временной фиксации, поддерживает до 256K контекста с почти безпотерьным рассуждением и включает встроенные возможности для агентов по коду, инструментам и поиску в интернете.

media r/LocalLLaMA · 7 д назад

У кого есть достаточно вычислительных ресурсов, чтобы создать дистилляционный датасет из GLM5.2?

Пользователь спрашивает, у кого есть достаточные вычислительные ресурсы, чтобы создать большой дистилляционный датасет из 700 000 до 1 миллиона примеров из GLM5.2. Цель — улучшить обучение более маленьких моделей, таких как Qwen3.5, и помочь более широкой сообществу.

media r/LocalLLaMA · 7 д назад

Обзор GLM-5.2 и реакция на цензуру

GLM-5.2 демонстрирует исключительную согласованность в длинных контекстах и живое общение, превосходя Gemini-3.1-Pro по текстовым задачам и соответствующий GPT-5.5 по качеству логического мышления. Модель отвечает фактами на чувствительные темы, такие как Тайвань и площадь Тяньаньмен, предоставляя подробный исторический контекст без явной цензуры, хотя и следует китайским правительственным правилам содержания.

media r/LocalLLaMA · 7 д назад

Лидеры Anthropic и Google DeepMind призывают к созданию коалиции по ИИ под руководством США на встрече G7

Лидеры Anthropic и Google DeepMind призвали к созданию коалиции по ИИ под руководством США во время встречи G7. Ведущие подчеркнули необходимость координированных глобальных инициатив для обеспечения ответственного развития и регулирования ИИ.

media r/LocalLLaMA · 7 д назад

Оценка малых моделей LLM на сложных данных из HTML

Пользователь протестировал модели от 2B до 35B параметров на 29 сложных страницах извлечения данных из HTML и обнаружил, что более малые модели, такие как gemma4 e2b и e4b, превосходят более крупные. Qwen3.6 27B показал лучшую производительность, в то время как все MOE-модели получили низкие оценки, что подчёркивает важность задачоспецифической оценки.