Все статьи
media r/LocalLLaMA · 13 д назад

GLM-5.2 превосходит GPT-5.5 в оценке AA-Briefcase

Новая оценка агентных задач искусственного анализа, AA-Briefcase, показывает, что GLM-5.2 превосходит GPT-5.5 по производительности. Оценка оценивает выполнение реальных задач и способность к логическому мышлению в сценариях работы с знаниями.

blog Simon Willison · 13 д назад

datasette-apps 0.1a2 Release Notes

datasette-apps 0-1a2 вводит новую разрешение apps-set-csp для защиты пользовательских сетевых и CSP источников, с опциональным списком разрешений для неавторизованных пользователей. В этом выпуске также улучшена навигация клавиатурой в выпадающем списке сохраненных запросов и исправлены проблемы с подтверждением ссылок и панелями логирования в полноэкранном режиме.

blog Simon Willison · 13 д назад

datasette-apps 0.1a3 Release

datasette-apps 0.1a3 исправляет баг, позволяющий пользователям без разрешения create-app создавать приложения. Также решается проблема, при которой невладельцы могли редактировать приватные приложения, и разрешения на редактирование и удаление синхронизируются с разрешениями на просмотр.

blog Simon Willison · 13 д назад

Datasette представляет плагин Apps для пользовательских приложений на HTML

Datasette выпустил новый плагин datasette-apps, который позволяет запускать автономные приложения на HTML+JavaScript в защищённой веб-рамке. Такие приложения могут выполнять только чтение или запись SQL-запросов к базам данных Datasette, при этом встроенные механизмы безопасности, такие как заголовки CSP и ограничения виртуальной среды, предотвращают утечку данных или незаконный доступ.

media r/LocalLLaMA · 13 д назад

GLM-5.2 (744B, 2-бит) достигает 7,3 ток/с на 4×3090 с 192 ГБ ОЗУ

GLM-5.2 UD-IQ2_M работает со скоростью около 7,3 токенов в секунду на 4×RTX 3090 с 192 ГБ DDR5 ОЗУ при использовании llama.cpp с экспертным выгрузкой. Снижение квантования с IQ2 до IQ1 не привело к увеличению скорости, в то время как увеличение числа потоков на ЦП от 6 до 12 повысило производительность на 22%. Декодирование ограничено вычислительной мощностью ЦП, а не пропускной способностью памяти, и эксперты, выгруженные на GPU, должны быть явно распределены между GPU, чтобы избежать ошибок переполнения памяти.

media r/LocalLLaMA · 13 д назад

DiffusionGemma 26B на 4090 достигает 475t/s с ограничениями

DiffusionGemma 26B работает до 475t/s на 4090 через vLLM с квантованием INT4 AWQ, достигая скоростей от 290t/s до 700t/s в зависимости от длины вывода. Однако, он страдает от односессионной работы, снижения точности ответов, быстрого потери контекста и более медленного времени до первого токена по сравнению с стандартными моделями 26B.

media r/LocalLLaMA · 13 д назад

Какой самый лучший открытый инструмент для преобразования речи в текст сегодня?

Пользователь ищет рекомендации по инструментам для преобразования речи в текст в реальном времени с возможностью дифференциации голосов, спрашивает о заменах Wispr Flow и MacParakeet, который использует модели Parakeet и Whisper. Он уточняет, появилось ли новое поколение моделей, поддерживающих работу в реальном времени.

media r/LocalLLaMA · 13 д назад

Запуск GLM-5.2 только на CPU с локальной установкой

Пользователь запускает GLM-5.2 локально на сервере Dell PowerEdge R740 с двумя процессорами Xeon 6248R и 768 ГБ ОЗУ, используя ik_llama.cpp для улучшения инференса на CPU. После изоляции одного узла NUMA для оптимальной производительности, они достигают скорости 4–5,5 токена в секунду в чате и около 3 токена в секунду в задачах по кодированию, отмечая, что модель демонстрирует 'фронтирующие настроения' при генерации кода, несмотря на ограниченную применимость на этом оборудовании.

github LangGraph · 13 д назад

langgraph выпускает версию 1.2.6

LangGraph выпускает версию 1.2.6, исправляя регрессию, при которой вложенные подграфы неправильно наследуют checkpoint_ns родительского графа. Обновление также улучшает отмену выполняющихся подграфов при прерывании потока и включает обновление CLI до версии 0.4.30.

media r/LocalLLaMA · 13 д назад

Переиспользование старого узла с несколькими GPU для локальной инференции

Узел оснащен 8 NVIDIA Quadro RTX 6000 GPU с 192 ГБ ОЗУ и 512 ГБ ОЗУ, что позволяет выполнять масштабную локальную инференцию моделей ИИ. Модели, такие как LLaMA-3 или Mistral с 8–13 миллиардами параметров, могут здесь эффективно работать, обеспечивая более быструю, приватную и низкозадержку производительность по сравнению с настройками на одном GPU, что делает его ценным для внутреннего использования.

media r/LocalLLaMA · 13 д назад

Локальная Qwen не хуже Opus, это инструмент с другими возможностями

В статье утверждается, что Local Qwen не уступает Opus, а служит другой цели. Автор подчеркивает, что каждый модель разработан для конкретных задач, и прямое сравнение моделей игнорирует их разные возможности и предназначенные области применения.

media r/LocalLLaMA · 13 д назад

Калибровка 2-битных GGUF для задач агентного программирования

2-битные квантованные версии Qwopus3.6-27B-Coder, калиброванные на реальных журналах агентного программирования, достигают 63% успешного прохождения на SWE-rebench. Версия IQ2_M превосходит некалиброванные версии и соперничает с Q5_K_M по показателю успешного прохождения, несмотря на то, что она вдвое меньше, с улучшенной устойчивостью к циклам и более быстрой декодировкой благодаря объединенному MTP.

media Latent Space · 13 д назад

Почему масштабирование ИИ — это проблема систем, а не просто соревнование по GPU

Диалог о масштабировании ИИ игнорирует то, что максимизация использования FLOP модели имеет большее значение, чем покупка дополнительных GPU. Организации, такие как xAI, работают на уровне ниже 10% MFU, в то время как исторические модели достигали 21% до 70% MFU, что указывает на системные недостатки в планировании, сетевом взаимодействии и управлении кластерами. Анджей Мидха утверждает, что инфраструктура ИИ должна эволюционировать в эффективные, сбалансированные и ответственные системы, и появляется новая дисциплина — "максимизация выхода" — для передовых систем ИИ.

media r/LocalLLaMA · 13 д назад

North Mini Code: 4-битная квантование, поддержка Ollama и OpenRouter

Cohere Labs выпустил версию North Mini Code с квантованием на 4 бита на Hugging Face, что сократило её размер до примерно 20 ГБ для локальной работы на устройствах, таких как Mac. Модель теперь поддерживается в Ollama, локальных средах выполнения на базе llama.cpp, и через API OpenRouter, что улучшает доступность для разработчиков.

media r/LocalLLaMA · 13 д назад

LFM2.5-Embedding-35-0M и LFM2.5-ColBERT-350M были выпущены

LFM2.5-Embedding-350M — это плотный двойной кодировщик, обеспечивающий быструю мультиязычную ретриев-операцию с одним вектором на документ, достигающий наилучшей точности для своего размера и скорость инференса, сравнимой с более малыми моделями. LFM2.5-ColBERT-350M — это ретриев-модель с поздним взаимодействием, обеспечивающий наилучшую мультиязычную точность, позволяющий проводить межязычную ретриев-операцию, храня один вектор на токен и поддерживая ретриев на нескольких языках с высокой точностью. Оба моделя являются разработанными как прямые замены для существующих пайплайнов RAG.

media r/LocalLLaMA · 13 д назад

Снижение затрат на токены в реальных условиях за счёт headroom, rtk и caveman

Реальный анализ нагрузки показывает, что headroom, rtk и caveman снижают затраты на токены на 2,8%, 0,5% и 0.4% соответственно, что в сумме составляет 3,7% от базовых расходов. Однако сокращения ограничены разнообразием нагрузки, поскольку большая часть трафика состоит из простого текста или исходного кода, а инструменты сжимают только структурированные выводы. Большинство сокращений происходит в наиболее дешёвом потоке токенов — при чтении кэша, при этом инструменты не влияют на кэширование промптов или затраты на выводы, и существуют пробелы в охвате, особенно в отношении rtk.

media r/LocalLLaMA · 13 д назад

Laguna M.1: 225B параметр модель MoE для агентного кодирования

Laguna M.1 — это модель с 225B параметрами и 23B активными параметрами на каждый токен, разработанная для агентного кодирования и задач с длинным горизонтом. Она достигает конкурентоспособных результатов на SWE-bench Verified (74,6%), SWE-bench Multilingual (63,1%) и Terminal-Bench 2.0 (45,8%), превосходя модели, такие как Devstral 2 и GLM-4.7, на ключевых тестах.