Все статьи
media r/LocalLLaMA · 3 ч назад

Оператор GPU-лаборатории предупреждает о мошенничестве с предзаказами на 96 ГБ RTX 4090 и 5090

Оператор GPU-лаборатории в США, сотрудничающий с китайскими фабриками по производству модифицированных печатных плат RTX 4090 на 48 ГБ, предупреждает, что объявления о продаже RTX 4090 и RTX 5090 на 96 ГБ являются мошенничеством по состоянию на июнь 2026 года.

media r/LocalLLaMA · 3 ч назад

Офлайн-инструмент подбора GPU оценивает совместимость локальных моделей и скорость работы

Разработчик выпустил офлайн-инструмент в виде одного HTML-файла, который определяет, какие локальные большие языковые модели поместятся в конкретную конфигурацию GPU, и прогнозирует скорость генерации токенов. Инструмент создан для ответа на частый вопрос о том, сможет ли кастомная сборка ПК эффективно запускать нужные модели, без необходимости использования бэкенда или создания учётной записи.

media r/LocalLLaMA · 3 ч назад

Пользователь Reddit спрашивает об обновлениях фреймворков для использования агентов в браузере и возможностях локальных моделей

Пользователь Reddit интересуется текущим состоянием фреймворков для использования агентов в браузере, конкретно спрашивая, были ли внесены улучшения для обработки длинных рабочих процессов по сравнению с предыдущим опытом.

media r/LocalLLaMA · 3 ч назад

SpectralQuant Qwen3.5 0.8B Q4_K_M восстанавливает 96,5% разрыва с BF16

Компания Spectral Labs выпустила кандидата в релизы для калибровки-осознанного квантования Q4_K_M модели Qwen3.5 0.8B, используя новый метод под названием SpectralQuant. Этот подход направлен на то, чтобы стандартные форматы Q4_K_M вели себя ближе к более крупным форматам квантования, сохраняя при этом совместимость с llama.cpp.

media Ahead of AI · 4 ч назад

Настройка локального агента для программирования с использованием инструментов с открытым исходным кодом

Эта статья представляет собой руководство по настройке полностью локальной стека агентов для программирования, готового к промышленной эксплуатации, с использованием инструментов с открытым исходным кодом и больших языковых моделей с открытыми весами. В ней подробно описывается, как объединить локально развернутую LLM с инструментом для программирования, способным читать файлы, вносить изменения, выполнять команды и проверять результаты.

media r/LocalLLaMA · 4 ч назад

Голова диффузии Orthrus, обученная на Qwen 3.5/3.6 и Gemma 4, скоро выйдет

Проект Orthrus готовится выпустить поддержку моделей Qwen 3.5, Qwen 3.6 и Gemma 4 с использованием подхода диффузионной головы. Команда завершила тестирование и в настоящее время настраивает конвейер выпуска.

media r/LocalLLaMA · 4 ч назад

Пользователь Reddit обнаружил новый режим работы с изображениями в приложении DeepSeek

Пользователь Reddit заметил новый режим работы с изображениями в приложении DeepSeek, что вызвало предположения о скором выпуске модели, способной анализировать изображения. Пользователь уточнил, что эта функция не является инструментом OCR (оптического распознавания символов), поскольку она успешно описывает изображения, не содержащие текста.

media r/LocalLLaMA · 4 ч назад

Сообщения о 96 ГБ VRAM у RTX 5090 из хуацяньбэй в Шэньчжэне

Посетители электронного рынка Хуацяньбэй в Шэньчжэне столкнулись с сообщениями и потенциальными предложениями по модифицированным видеокартам Nvidia RTX 5090, оснащенным 96 гигабайтами видеопамяти. Один из продавцов указал, что такая переделанная Blackwell RTX 6000 будет стоить примерно $8 200, включая 36 000 юаней за базовую карту и дополнительные 20 000 юаней за апгрейд памяти.

media r/LocalLLaMA · 4 ч назад

Обсуждение в Reddit о производительности дообучения Qwen

Пользователь Reddit отмечает, что хотя дообучение моделей Qwen является популярной практикой, существует заметная нехватка положительных отзывов об их производительности. Пользователь задаётся вопросом, есть ли какие-либо дообученные модели Qwen, которые действительно превзошли возможности базовой модели.

media r/LocalLLaMA · 4 ч назад

llama.cpp PR #20793: Возвращение меньшего количества синхронизаций при разделённых вычислениях

Pull request #20793 возвращает уменьшение синхронизации при операциях разделённых вычислений в llama.cpp, в первую очередь направлено на улучшение производительности CUDA. Изменения включают замену синхронных копий на асинхронные и ослабление требований к синхронизации между копиями входных данных на поддерживаемых бэкендах.

github llama.cpp · 4 ч назад

Выпуск llama.cpp b9828: улучшения Flash Attention для OpenCL и новые бинарные файлы

Выпуск llama.cpp b9828 вносит значительные улучшения в OpenCL, конкретно перерабатывая ядра Flash Attention для точности f16 и f32. Это обновление включает новые ядра предварительного прохода префилла и поддержку форматов квантования q4_0 и q8_0.

media r/LocalLLaMA · 5 ч назад

STT, способный бросить вызов Dragon Professional на Windows

Пользователь Reddit ищет локальные решения для преобразования речи в текст на основе LLM для Windows, которые могут соперничать с Dragon Professional, особенно в части редактирования вставленного текста и загрузки слов во время записи.

media r/LocalLLaMA · 5 ч назад

ContextForge: локальный SDK для долговременной памяти, который действительно выдерживает длительные запуски

ContextForge — это новый SDK, предназначенный для обеспечения практически неограниченного контекста для LLM без перегрузки окна промпта. Он решает распространенную проблему сбоев систем долговременной памяти во время длительных запусков, рассматривая окно контекста как динамический рабочий набор, а не постоянное хранилище.

media r/LocalLLaMA · 5 ч назад

Устранение неполадок с P2P при разделении 4x5060 Ti

Инженер облачных систем сообщает, что использование одной карты PCIe x16 с одним разветвителем 4x4 для подключения четырёх GPU создаёт узкое место пропускной способности для связи peer-to-peer (P2P). Этот узкий момент насыщает сеть, соединяющую карты, что приводит к производительности хуже, чем при отключённом P2P.