Все статьи
media r/LocalLLaMA · 11 д назад

Месяц назад я отказался от 8165 долларов за RTX 6000 PRO

Пользователь Reddit сообщил, что шесть месяцев назад отказался от предложения в размере 8165 долларов за видеокарту RTX 6000 PRO. Тот же поставщик сейчас предлагает ту же видеокарту по цене 11575 долларов, что заставляет пользователя отразить на своём решении с точки зрения перспективы.

media r/LocalLLaMA · 11 д назад

ГЛОМ 5.2: отчет о скорости локальной инференции

Пользователи, отчитывающие скорости локальной инференции GLM 5.2 с использованием llama.cpp на 6x RTX 3090 с 128 ГБ DDR5 и i7-13700K, достигают скорости 7,8 токенов в секунду при размере контекста 90K с использованием квантования Q8_0. Обработка промпта происходит со скоростью примерно 40 токенов в секунду.

media r/LocalLLaMA · 11 д назад

Бесплатная серия из 15 частей о внутренних аспектах LLM, основанных на Gemma 4 12B

Я написал бесплатную серию из 15 частей, в которой подробно описывается внутренняя структура LLM, используя Gemma 4 12B в качестве основного примера. Каждая часть охватывает технические аспекты от токенизации до предоставления сервиса, с реальными математическими вычислениями, формами тензоров и ограничениями аппаратного обеспечения. Серия включает в себя дополнительный разбор vLLM и полностью доступна без платных стен или требований на электронную почту.

media r/LocalLLaMA · 11 д назад

Расширение Qwen Code Companion теперь открыто для использования

Расширение Qwen Code Companion для VSCode теперь доступно в магазине и открыто для использования по адресу https://github.com/QwenLM/qwen-code. Пользователи отмечают, что оно работает хорошо с моделями, размещёнными в LM Studio, и превосходит другие локальные инструменты для LLM, такие как continue, kilo, cline и roo, при минимальной настройке.

media r/LocalLLaMA · 11 д назад

Gemma 4 26b a4b выделяется при ответах на языковые и научные запросы

Пользователь утверждает, что Gemma 4 26b a4b является лучшей моделью, которую он пробовал для изучения языка и научных запросов, превосходя Qwen 3.5/3.6 в этих областях. В посте отмечается разрыв в доступных малых моделях MOE в диапазоне от 20b до 30b, что указывает на необходимость расширения вариантов за пределами задач кодирования и агентских действий.

media r/LocalLLaMA · 11 д назад

Сложности с завершением токен-планов Xiaomi Mimo-v2.5-pro до истечения срока

Пользователь имеет 24B токен-кредитов из конкурса токен-плана Xiaomi, стоимостью $50, но полученных бесплатно. Он сообщает о высоком потреблении токенов при использовании, ограниченной поддержке инструментов и теперь обеспокоен тем, что кредиты будут потеряны из-за истечения срока в четыре дня. Модель похвалена за 90% ставку кэша и 99% снижение цены при кэшировании, пользователь отмечает, что она хорошо справляется с задачами по программированию и планированию.

github llama.cpp · 11 д назад

Исправление случайных сбоев в test-args-parser на Windows

Патч устраняет случайные сбои в тесте test-args-parser на Windows, изменяя перекрытие argv так, чтобы применяться только при совпадении argc, предотвращая перезапись программных аргументов. Это устраняет сбой быстрого отказа в рабочем процессе OpenVINO на Windows, при этом сохраняя обработку UTF-8 для реальных исполняемых файлов.

media r/LocalLLaMA · 11 д назад

Доска, где каждый квадрат — агент

Проект под названием Jaz представляет доску, где каждый квадрат функционирует как независимый агент, отвечающий за поддержание собственного состояния. Система является открытой и доступна на GitHub, с живой демонстрацией по адресу jaz.chat, требующей агента для программирования, такого как Claude Code или Codex.

media r/LocalLLaMA · 11 д назад

Глубокая нейронная сеть превращает изображения в игровые сессии локально

Локально работающая глубокая нейронная сеть может превращать любое изображение в игровую сессию, используя небольшую модель, похожую на трансформер, обученную с нуля. Модель, работающая на RTX 5090, генерирует игровые последовательности автокоррекционно с реальным вводом клавиатуры, хотя в настоящее время она страдает от плохой динамики и проблем с контекстом.

media r/LocalLLaMA · 11 д назад

Решение о покупке R9700 в условиях роста цен на видеокарты

Пользователь выражает разочарование по поводу цен Nvidia, купив двух видеокарт R9700, несмотря на текущие цены на RTX 5090 в размере 7000 долларов и на RTX 6000 Pro в размере 13500 долларов. Он спрашивает, не было ли ошибкой покупка R9700 в свете значительного роста цен на более новые видеокарты Nvidia.

media r/LocalLLaMA · 11 д назад

Теперь вы можете конвертировать квантованные модели EXL3 на Mac с процессором Apple Silicon

Пользователи теперь могут конвертировать и запускать квантованные модели EXL3 на Mac с процессором Apple Silicon и объёмом памяти 64 ГБ и более. Проверки показывают, что модели, такие как MiniCPM5 и Qwen3.6-27B, достигают производительности, сравнимой с или немного ниже производительности при конвертации на картах RTX, при этом EXL3 обеспечивает более высокое качество квантования по сравнению с MLX.

media r/LocalLLaMA · 11 д назад

Написанное на листке бумаги математика по совокупным расходам на хостинг diffusiongemma в 2026 году

Анализ затрат показывает, что хостинг diffusiongemma при различных уровнях токенов пользователей приводит к ежемесячным расходам на пользователя от 1,7 евро до 122,8 евро. Исследование показывает, что использование агентного ИИ экономически нецелесообразно для совместного хостинга, хотя расходы могут снизиться при появлении новых GPU или ASIC и сокращении срока износа GPU.

media r/LocalLLaMA · 11 д назад

Два документа Word обмениваются содержимым через локальные LLMs — реальные примеры использования?

Прототип демонстрирует, как два документа Word обмениваются содержимым с помощью локальных LLMs, с итеративными взаимодействиями на нескольких шагах. Потенциальные практические примеры включают итеративное взаимодействие чернового документа и критического документа, или совместную работу спецификации и реализации документа, хотя реализуемость таких рабочих процессов остаётся неопределённой.

github llama.cpp · 11 д назад

llama.cpp release b9738: fixes CORS auth header forwarding and new binary builds

llama.cpp version b9738 исправляет прокси CORS для предотвращения передачи аутентификационных заголовков. В выпуске представлены бинарные сборки для macOS, Linux, Android, Windows и openEuler на разных архитектурах и вариантах ускорения, включая Vulkan, CUDA, OpenVINO и SYCL.

media r/LocalLLaMA · 11 д назад

Какой из моделей лучше: Qwen3.6-27B@BF16 или Step3.7@IQ4_XS?

Пользователь спрашивает, какой из моделей — Qwen3.6-27B при точности BF16 или Step3.7 с квантованием IQ4_XS — будет принимать более осознанные, автономные решения с меньшей необходимостью в руководстве человека. Вопрос сравнивает плотную модель высокой точности с более крупной моделью на основе MoE при низкой точности, указывая на компромиссы в памяти и производительности.