Самая большая модель для дистилляции при VRAM до 64 ГБ
Пользователь Reddit ищет рекомендации по самой большой модели с возможностями рассуждений, которая помещается в лимит 64 ГБ VRAM для целей дистилляции знаний.
Пользователь Reddit ищет рекомендации по самой большой модели с возможностями рассуждений, которая помещается в лимит 64 ГБ VRAM для целей дистилляции знаний.
Анализ спекулятивного декодирования с использованием моделей Gemma 4-31B-it показывает, что сильное квантование снижает частоту принятия токенов, поскольку основная модель становится менее согласованной с генератором черновиков. Тестирование квантований Q5_K_S, IQ4_XS, IQ3_M и IQ2_M выявляет, как глубина черновика влияет на производительность.
Пользователь Reddit демонстрирует, как собрать локальную систему для вывода ИИ менее чем за $2500, используя доступные б/у компоненты, с акцентом на возможность запуска больших языковых моделей, таких как GLM-5.2, без дорогого корпоративного оборудования.
Пользователь Reddit делится опытом использования Claude Code для создания 3D-игры с моделью Ornith 35B. После трех промптов модель успешно выдала запрошенный результат, тогда как модель Qwen3.5-35b-a3b не смогла этого сделать даже после нескольких попыток.
Пользователь Reddit отмечает, что интерес к дообучению моделей на оборудовании потребительского класса, похоже, снизился после выпуска способных универсальных моделей, таких как Llama-3-8b. Автор предполагает, что повышение интеллекта базовой модели снижает необходимость в дообучении, поскольку часто достаточно промпт-инжиниринга.
Google организует хакатоны, ориентированные на малые языковые модели, в частности Gemma 4 31B, чтобы продемонстрировать их ценность в инженерии программного обеспечения с помощью ИИ. Эта инициатива подчеркивает убежденность компании в полезности малых моделей, несмотря на отраслевой тренд в сторону более крупных.
Предоставленный текст — это пост в Reddit, обсуждающий модель OpenAI GPT-5.6 и ограничения её развертывания после запроса правительства.
Пользователь Reddit из сообщества r/LocalLLaMA поделился изображением с подписью «Счастливая жена — счастливая жизнь, как говорят они». Пост представляет собой личную историю о покупке Диет Пепси для жены пользователя.
ObviousBench — это новый бенчмарк, предназначенный для оценки видимых сбоев в больших языковых моделях, с акцентом на то, как выбор конфигурации влияет на уровень ошибок. Инструмент подчеркивает компромиссы между размером модели, скоростью и способностями к рассуждению, а не просто ранжирует производительность.
Этот пост на Reddit содержит интервью Ars Technica с Кори Доктороу о его взглядах на искусственный интеллект. Автор поста подчеркивает критический тон статьи в отношении крупных технологических компаний, пытающихся выйти на IPO.
SupraLabs выпустила SupraSafety-18M, бинарный классификатор текста в стиле BERT с 18 миллионами параметров, предназначенный для модерации контента на периферийных устройствах и мобильных телефонах. Модель обучена с нуля на наборе данных nvidia/Nemotron-3.5-Content-Safety-Dataset и достигает точности (accuracy) 81,2% и прецизионности (precision) 86,9%.
Оператор GPU-лаборатории в США, сотрудничающий с китайскими фабриками по производству модифицированных печатных плат RTX 4090 на 48 ГБ, предупреждает, что объявления о продаже RTX 4090 и RTX 5090 на 96 ГБ являются мошенничеством по состоянию на июнь 2026 года.
Разработчик выпустил офлайн-инструмент в виде одного HTML-файла, который определяет, какие локальные большие языковые модели поместятся в конкретную конфигурацию GPU, и прогнозирует скорость генерации токенов. Инструмент создан для ответа на частый вопрос о том, сможет ли кастомная сборка ПК эффективно запускать нужные модели, без необходимости использования бэкенда или создания учётной записи.
Пользователь Reddit интересуется текущим состоянием фреймворков для использования агентов в браузере, конкретно спрашивая, были ли внесены улучшения для обработки длинных рабочих процессов по сравнению с предыдущим опытом.
Пользователь Reddit просит рекомендации по запуску небольших локальных языковых моделей и потенциально агентных задач, таких как Hermes, на старом MacBook Pro с ограниченными ресурсами.
Компания Spectral Labs выпустила кандидата в релизы для калибровки-осознанного квантования Q4_K_M модели Qwen3.5 0.8B, используя новый метод под названием SpectralQuant. Этот подход направлен на то, чтобы стандартные форматы Q4_K_M вели себя ближе к более крупным форматам квантования, сохраняя при этом совместимость с llama.cpp.
Эта статья представляет собой руководство по настройке полностью локальной стека агентов для программирования, готового к промышленной эксплуатации, с использованием инструментов с открытым исходным кодом и больших языковых моделей с открытыми весами. В ней подробно описывается, как объединить локально развернутую LLM с инструментом для программирования, способным читать файлы, вносить изменения, выполнять команды и проверять результаты.
Проект Orthrus готовится выпустить поддержку моделей Qwen 3.5, Qwen 3.6 и Gemma 4 с использованием подхода диффузионной головы. Команда завершила тестирование и в настоящее время настраивает конвейер выпуска.
Пользователь Reddit заметил новый режим работы с изображениями в приложении DeepSeek, что вызвало предположения о скором выпуске модели, способной анализировать изображения. Пользователь уточнил, что эта функция не является инструментом OCR (оптического распознавания символов), поскольку она успешно описывает изображения, не содержащие текста.
Посетители электронного рынка Хуацяньбэй в Шэньчжэне столкнулись с сообщениями и потенциальными предложениями по модифицированным видеокартам Nvidia RTX 5090, оснащенным 96 гигабайтами видеопамяти. Один из продавцов указал, что такая переделанная Blackwell RTX 6000 будет стоить примерно $8 200, включая 36 000 юаней за базовую карту и дополнительные 20 000 юаней за апгрейд памяти.