Ну... Я купил жене Диет Пепси.
Пользователь Reddit из сообщества r/LocalLLaMA поделился изображением с подписью «Счастливая жена — счастливая жизнь, как говорят они». Пост представляет собой личную историю о покупке Диет Пепси для жены пользователя.
Пользователь Reddit из сообщества r/LocalLLaMA поделился изображением с подписью «Счастливая жена — счастливая жизнь, как говорят они». Пост представляет собой личную историю о покупке Диет Пепси для жены пользователя.
ObviousBench — это новый бенчмарк, предназначенный для оценки видимых сбоев в больших языковых моделях, с акцентом на то, как выбор конфигурации влияет на уровень ошибок. Инструмент подчеркивает компромиссы между размером модели, скоростью и способностями к рассуждению, а не просто ранжирует производительность.
Этот пост на Reddit содержит интервью Ars Technica с Кори Доктороу о его взглядах на искусственный интеллект. Автор поста подчеркивает критический тон статьи в отношении крупных технологических компаний, пытающихся выйти на IPO.
SupraLabs выпустила SupraSafety-18M, бинарный классификатор текста в стиле BERT с 18 миллионами параметров, предназначенный для модерации контента на периферийных устройствах и мобильных телефонах. Модель обучена с нуля на наборе данных nvidia/Nemotron-3.5-Content-Safety-Dataset и достигает точности (accuracy) 81,2% и прецизионности (precision) 86,9%.
Оператор GPU-лаборатории в США, сотрудничающий с китайскими фабриками по производству модифицированных печатных плат RTX 4090 на 48 ГБ, предупреждает, что объявления о продаже RTX 4090 и RTX 5090 на 96 ГБ являются мошенничеством по состоянию на июнь 2026 года.
Разработчик выпустил офлайн-инструмент в виде одного HTML-файла, который определяет, какие локальные большие языковые модели поместятся в конкретную конфигурацию GPU, и прогнозирует скорость генерации токенов. Инструмент создан для ответа на частый вопрос о том, сможет ли кастомная сборка ПК эффективно запускать нужные модели, без необходимости использования бэкенда или создания учётной записи.
Пользователь Reddit интересуется текущим состоянием фреймворков для использования агентов в браузере, конкретно спрашивая, были ли внесены улучшения для обработки длинных рабочих процессов по сравнению с предыдущим опытом.
Пользователь Reddit просит рекомендации по запуску небольших локальных языковых моделей и потенциально агентных задач, таких как Hermes, на старом MacBook Pro с ограниченными ресурсами.
Компания Spectral Labs выпустила кандидата в релизы для калибровки-осознанного квантования Q4_K_M модели Qwen3.5 0.8B, используя новый метод под названием SpectralQuant. Этот подход направлен на то, чтобы стандартные форматы Q4_K_M вели себя ближе к более крупным форматам квантования, сохраняя при этом совместимость с llama.cpp.
Эта статья представляет собой руководство по настройке полностью локальной стека агентов для программирования, готового к промышленной эксплуатации, с использованием инструментов с открытым исходным кодом и больших языковых моделей с открытыми весами. В ней подробно описывается, как объединить локально развернутую LLM с инструментом для программирования, способным читать файлы, вносить изменения, выполнять команды и проверять результаты.
Проект Orthrus готовится выпустить поддержку моделей Qwen 3.5, Qwen 3.6 и Gemma 4 с использованием подхода диффузионной головы. Команда завершила тестирование и в настоящее время настраивает конвейер выпуска.
Пользователь Reddit заметил новый режим работы с изображениями в приложении DeepSeek, что вызвало предположения о скором выпуске модели, способной анализировать изображения. Пользователь уточнил, что эта функция не является инструментом OCR (оптического распознавания символов), поскольку она успешно описывает изображения, не содержащие текста.
Посетители электронного рынка Хуацяньбэй в Шэньчжэне столкнулись с сообщениями и потенциальными предложениями по модифицированным видеокартам Nvidia RTX 5090, оснащенным 96 гигабайтами видеопамяти. Один из продавцов указал, что такая переделанная Blackwell RTX 6000 будет стоить примерно $8 200, включая 36 000 юаней за базовую карту и дополнительные 20 000 юаней за апгрейд памяти.
Пользователь Reddit с одним DGX Spark, оснащённым 128 ГБ объединённой памяти, ищет рекомендации по улучшенным моделям для кодирования; в настоящее время использует StepFun step-3.7-flash и варианты Qwen 3.6.
Пользователь Reddit отмечает, что хотя дообучение моделей Qwen является популярной практикой, существует заметная нехватка положительных отзывов об их производительности. Пользователь задаётся вопросом, есть ли какие-либо дообученные модели Qwen, которые действительно превзошли возможности базовой модели.
Компания DeepSeek выпустила модель DeepSeek-V4-Pro-DSpark на платформе Hugging Face, а также сопроводительную техническую статью.
Пользователь дообучил модель LiquidAI LFM2.5-230M на наборах данных Fable-5 для программирования и выпустил её в формате GGUF для локального использования.
Pull request #20793 возвращает уменьшение синхронизации при операциях разделённых вычислений в llama.cpp, в первую очередь направлено на улучшение производительности CUDA. Изменения включают замену синхронных копий на асинхронные и ослабление требований к синхронизации между копиями входных данных на поддерживаемых бэкендах.
Выпуск llama.cpp b9828 вносит значительные улучшения в OpenCL, конкретно перерабатывая ядра Flash Attention для точности f16 и f32. Это обновление включает новые ядра предварительного прохода префилла и поддержку форматов квантования q4_0 и q8_0.
Пользователь Reddit запрашивает примерные сроки официального слияния поддержки моделей DeepSeek V4 Flash и MiniMax M3 в основной репозиторий llama.cpp.