Все статьи
media r/LocalLLaMA · 6 ч назад

Влияние квантования на скорость принятия черновиков MTP

Анализ спекулятивного декодирования с использованием моделей Gemma 4-31B-it показывает, что сильное квантование снижает частоту принятия токенов, поскольку основная модель становится менее согласованной с генератором черновиков. Тестирование квантований Q5_K_S, IQ4_XS, IQ3_M и IQ2_M выявляет, как глубина черновика влияет на производительность.

media r/LocalLLaMA · 6 ч назад

Запуск GLM5.2 на бюджетном оборудовании < $2500

Пользователь Reddit демонстрирует, как собрать локальную систему для вывода ИИ менее чем за $2500, используя доступные б/у компоненты, с акцентом на возможность запуска больших языковых моделей, таких как GLM-5.2, без дорогого корпоративного оборудования.

media r/LocalLLaMA · 6 ч назад

Пользователи сообщают, что Ornith 35B превосходит Qwen в генерации 3D-игр

Пользователь Reddit делится опытом использования Claude Code для создания 3D-игры с моделью Ornith 35B. После трех промптов модель успешно выдала запрошенный результат, тогда как модель Qwen3.5-35b-a3b не смогла этого сделать даже после нескольких попыток.

media r/LocalLLaMA · 6 ч назад

Наблюдения за спадом обсуждений дообучения на потребительском оборудовании

Пользователь Reddit отмечает, что интерес к дообучению моделей на оборудовании потребительского класса, похоже, снизился после выпуска способных универсальных моделей, таких как Llama-3-8b. Автор предполагает, что повышение интеллекта базовой модели снижает необходимость в дообучении, поскольку часто достаточно промпт-инжиниринга.

media r/LocalLLaMA · 6 ч назад

Google проводит хакатоны для малых моделей, таких как Gemma 4 31B

Google организует хакатоны, ориентированные на малые языковые модели, в частности Gemma 4 31B, чтобы продемонстрировать их ценность в инженерии программного обеспечения с помощью ИИ. Эта инициатива подчеркивает убежденность компании в полезности малых моделей, несмотря на отраслевой тренд в сторону более крупных.

media r/LocalLLaMA · 7 ч назад

ObviousBench: бенчмарк для выявления очевидных сбоев LLM в более мелких моделях

ObviousBench — это новый бенчмарк, предназначенный для оценки видимых сбоев в больших языковых моделях, с акцентом на то, как выбор конфигурации влияет на уровень ошибок. Инструмент подчеркивает компромиссы между размером модели, скоростью и способностями к рассуждению, а не просто ранжирует производительность.

media r/LocalLLaMA · 7 ч назад

Интервью Кори Доктороу об ИИ и продвижении локального ИИ

Этот пост на Reddit содержит интервью Ars Technica с Кори Доктороу о его взглядах на искусственный интеллект. Автор поста подчеркивает критический тон статьи в отношении крупных технологических компаний, пытающихся выйти на IPO.

media r/LocalLLaMA · 7 ч назад

SupraLabs выпустила SupraSafety-18M, крошечную модель для модерации контента

SupraLabs выпустила SupraSafety-18M, бинарный классификатор текста в стиле BERT с 18 миллионами параметров, предназначенный для модерации контента на периферийных устройствах и мобильных телефонах. Модель обучена с нуля на наборе данных nvidia/Nemotron-3.5-Content-Safety-Dataset и достигает точности (accuracy) 81,2% и прецизионности (precision) 86,9%.

media r/LocalLLaMA · 7 ч назад

Оператор GPU-лаборатории предупреждает о мошенничестве с предзаказами на 96 ГБ RTX 4090 и 5090

Оператор GPU-лаборатории в США, сотрудничающий с китайскими фабриками по производству модифицированных печатных плат RTX 4090 на 48 ГБ, предупреждает, что объявления о продаже RTX 4090 и RTX 5090 на 96 ГБ являются мошенничеством по состоянию на июнь 2026 года.

media r/LocalLLaMA · 7 ч назад

Офлайн-инструмент подбора GPU оценивает совместимость локальных моделей и скорость работы

Разработчик выпустил офлайн-инструмент в виде одного HTML-файла, который определяет, какие локальные большие языковые модели поместятся в конкретную конфигурацию GPU, и прогнозирует скорость генерации токенов. Инструмент создан для ответа на частый вопрос о том, сможет ли кастомная сборка ПК эффективно запускать нужные модели, без необходимости использования бэкенда или создания учётной записи.

media r/LocalLLaMA · 7 ч назад

Пользователь Reddit спрашивает об обновлениях фреймворков для использования агентов в браузере и возможностях локальных моделей

Пользователь Reddit интересуется текущим состоянием фреймворков для использования агентов в браузере, конкретно спрашивая, были ли внесены улучшения для обработки длинных рабочих процессов по сравнению с предыдущим опытом.

media r/LocalLLaMA · 7 ч назад

SpectralQuant Qwen3.5 0.8B Q4_K_M восстанавливает 96,5% разрыва с BF16

Компания Spectral Labs выпустила кандидата в релизы для калибровки-осознанного квантования Q4_K_M модели Qwen3.5 0.8B, используя новый метод под названием SpectralQuant. Этот подход направлен на то, чтобы стандартные форматы Q4_K_M вели себя ближе к более крупным форматам квантования, сохраняя при этом совместимость с llama.cpp.

media Ahead of AI · 8 ч назад

Настройка локального агента для программирования с использованием инструментов с открытым исходным кодом

Эта статья представляет собой руководство по настройке полностью локальной стека агентов для программирования, готового к промышленной эксплуатации, с использованием инструментов с открытым исходным кодом и больших языковых моделей с открытыми весами. В ней подробно описывается, как объединить локально развернутую LLM с инструментом для программирования, способным читать файлы, вносить изменения, выполнять команды и проверять результаты.

media r/LocalLLaMA · 8 ч назад

Голова диффузии Orthrus, обученная на Qwen 3.5/3.6 и Gemma 4, скоро выйдет

Проект Orthrus готовится выпустить поддержку моделей Qwen 3.5, Qwen 3.6 и Gemma 4 с использованием подхода диффузионной головы. Команда завершила тестирование и в настоящее время настраивает конвейер выпуска.

media r/LocalLLaMA · 8 ч назад

Пользователь Reddit обнаружил новый режим работы с изображениями в приложении DeepSeek

Пользователь Reddit заметил новый режим работы с изображениями в приложении DeepSeek, что вызвало предположения о скором выпуске модели, способной анализировать изображения. Пользователь уточнил, что эта функция не является инструментом OCR (оптического распознавания символов), поскольку она успешно описывает изображения, не содержащие текста.

media r/LocalLLaMA · 8 ч назад

Сообщения о 96 ГБ VRAM у RTX 5090 из хуацяньбэй в Шэньчжэне

Посетители электронного рынка Хуацяньбэй в Шэньчжэне столкнулись с сообщениями и потенциальными предложениями по модифицированным видеокартам Nvidia RTX 5090, оснащенным 96 гигабайтами видеопамяти. Один из продавцов указал, что такая переделанная Blackwell RTX 6000 будет стоить примерно $8 200, включая 36 000 юаней за базовую карту и дополнительные 20 000 юаней за апгрейд памяти.