Все статьи
media r/LocalLLaMA · 12 д назад

Что делают люди с локальными моделями и какие инструменты они используют?

Пользователь спрашивает о практическом применении локальных моделей и о том, какие инструменты эффективны для задач, таких как программирование, особенно в качестве альтернативы веб-интерфейсам, таким как Claude.ai. Они упоминают попытку использования OpenWebUI, но отмечают, что он недостаточно мощен без значительной настройки.

media r/LocalLLaMA · 12 д назад

Что происходит, когда подписки на LLM перестают поддерживаться?

Поставщики LLM в настоящее время поддерживали дорогостоящее использование API для создания экосистем, планируя повысить цены позже. По мере того, как поддержка уменьшается, пользователи могут столкнуться с резким ростом цен — например, до 2000 долларов в месяц — что сделает доступ к сервису дорогостоящим и угрожает широкому внедрению, особенно для лиц, которые зависят от недорогого оборудования для запуска моделей.

media r/LocalLLaMA · 12 д назад

Введение в Noema Atlas: распределение моделей на основе пир-топ-пир

Noema Atlas — это бесплатная, открытая система пир-топ-пир, которая обеспечивает децентрализованное распространение локальных моделей больших языковых моделей с использованием Iroh и хеширования BLAKE3. Она позволяет пользователям делиться и получать модели напрямую с узлов по всему миру, с Hugging Face и зеркал как резервные варианты, и поддерживает восстановление моделей, удалённых с Hugging Face, через приватное распространение.

github llama.cpp · 12 д назад

llama.cpp Release b9742: Обновлено с использованием заполненного шага для весов SSM-conv

Версия llama.cpp b9742 вводит заполненный шаг для весов SSM-conv, что повышает эффективность операций в нейронных сетях. В этом выпуске представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и API, включая Vulkan, CUDA, OpenVINO и SYCL.

media r/LocalLLaMA · 12 д назад

Месяц назад я отказался от 8165 долларов за RTX 6000 PRO

Пользователь Reddit сообщил, что шесть месяцев назад отказался от предложения в размере 8165 долларов за видеокарту RTX 6000 PRO. Тот же поставщик сейчас предлагает ту же видеокарту по цене 11575 долларов, что заставляет пользователя отразить на своём решении с точки зрения перспективы.

media r/LocalLLaMA · 12 д назад

ГЛОМ 5.2: отчет о скорости локальной инференции

Пользователи, отчитывающие скорости локальной инференции GLM 5.2 с использованием llama.cpp на 6x RTX 3090 с 128 ГБ DDR5 и i7-13700K, достигают скорости 7,8 токенов в секунду при размере контекста 90K с использованием квантования Q8_0. Обработка промпта происходит со скоростью примерно 40 токенов в секунду.

media r/LocalLLaMA · 12 д назад

Бесплатная серия из 15 частей о внутренних аспектах LLM, основанных на Gemma 4 12B

Я написал бесплатную серию из 15 частей, в которой подробно описывается внутренняя структура LLM, используя Gemma 4 12B в качестве основного примера. Каждая часть охватывает технические аспекты от токенизации до предоставления сервиса, с реальными математическими вычислениями, формами тензоров и ограничениями аппаратного обеспечения. Серия включает в себя дополнительный разбор vLLM и полностью доступна без платных стен или требований на электронную почту.

media r/LocalLLaMA · 12 д назад

Расширение Qwen Code Companion теперь открыто для использования

Расширение Qwen Code Companion для VSCode теперь доступно в магазине и открыто для использования по адресу https://github.com/QwenLM/qwen-code. Пользователи отмечают, что оно работает хорошо с моделями, размещёнными в LM Studio, и превосходит другие локальные инструменты для LLM, такие как continue, kilo, cline и roo, при минимальной настройке.

media r/LocalLLaMA · 12 д назад

Gemma 4 26b a4b выделяется при ответах на языковые и научные запросы

Пользователь утверждает, что Gemma 4 26b a4b является лучшей моделью, которую он пробовал для изучения языка и научных запросов, превосходя Qwen 3.5/3.6 в этих областях. В посте отмечается разрыв в доступных малых моделях MOE в диапазоне от 20b до 30b, что указывает на необходимость расширения вариантов за пределами задач кодирования и агентских действий.

media r/LocalLLaMA · 12 д назад

Сложности с завершением токен-планов Xiaomi Mimo-v2.5-pro до истечения срока

Пользователь имеет 24B токен-кредитов из конкурса токен-плана Xiaomi, стоимостью $50, но полученных бесплатно. Он сообщает о высоком потреблении токенов при использовании, ограниченной поддержке инструментов и теперь обеспокоен тем, что кредиты будут потеряны из-за истечения срока в четыре дня. Модель похвалена за 90% ставку кэша и 99% снижение цены при кэшировании, пользователь отмечает, что она хорошо справляется с задачами по программированию и планированию.

github llama.cpp · 12 д назад

Исправление случайных сбоев в test-args-parser на Windows

Патч устраняет случайные сбои в тесте test-args-parser на Windows, изменяя перекрытие argv так, чтобы применяться только при совпадении argc, предотвращая перезапись программных аргументов. Это устраняет сбой быстрого отказа в рабочем процессе OpenVINO на Windows, при этом сохраняя обработку UTF-8 для реальных исполняемых файлов.

media r/LocalLLaMA · 12 д назад

Доска, где каждый квадрат — агент

Проект под названием Jaz представляет доску, где каждый квадрат функционирует как независимый агент, отвечающий за поддержание собственного состояния. Система является открытой и доступна на GitHub, с живой демонстрацией по адресу jaz.chat, требующей агента для программирования, такого как Claude Code или Codex.

media r/LocalLLaMA · 12 д назад

Глубокая нейронная сеть превращает изображения в игровые сессии локально

Локально работающая глубокая нейронная сеть может превращать любое изображение в игровую сессию, используя небольшую модель, похожую на трансформер, обученную с нуля. Модель, работающая на RTX 5090, генерирует игровые последовательности автокоррекционно с реальным вводом клавиатуры, хотя в настоящее время она страдает от плохой динамики и проблем с контекстом.

media r/LocalLLaMA · 12 д назад

Решение о покупке R9700 в условиях роста цен на видеокарты

Пользователь выражает разочарование по поводу цен Nvidia, купив двух видеокарт R9700, несмотря на текущие цены на RTX 5090 в размере 7000 долларов и на RTX 6000 Pro в размере 13500 долларов. Он спрашивает, не было ли ошибкой покупка R9700 в свете значительного роста цен на более новые видеокарты Nvidia.

media r/LocalLLaMA · 12 д назад

Теперь вы можете конвертировать квантованные модели EXL3 на Mac с процессором Apple Silicon

Пользователи теперь могут конвертировать и запускать квантованные модели EXL3 на Mac с процессором Apple Silicon и объёмом памяти 64 ГБ и более. Проверки показывают, что модели, такие как MiniCPM5 и Qwen3.6-27B, достигают производительности, сравнимой с или немного ниже производительности при конвертации на картах RTX, при этом EXL3 обеспечивает более высокое качество квантования по сравнению с MLX.