Все статьи
media r/LocalLLaMA · 6 ч назад

ObviousBench: бенчмарк для выявления очевидных сбоев LLM в более мелких моделях

ObviousBench — это новый бенчмарк, предназначенный для оценки видимых сбоев в больших языковых моделях, с акцентом на то, как выбор конфигурации влияет на уровень ошибок. Инструмент подчеркивает компромиссы между размером модели, скоростью и способностями к рассуждению, а не просто ранжирует производительность.

media r/LocalLLaMA · 6 ч назад

Интервью Кори Доктороу об ИИ и продвижении локального ИИ

Этот пост на Reddit содержит интервью Ars Technica с Кори Доктороу о его взглядах на искусственный интеллект. Автор поста подчеркивает критический тон статьи в отношении крупных технологических компаний, пытающихся выйти на IPO.

media r/LocalLLaMA · 6 ч назад

SupraLabs выпустила SupraSafety-18M, крошечную модель для модерации контента

SupraLabs выпустила SupraSafety-18M, бинарный классификатор текста в стиле BERT с 18 миллионами параметров, предназначенный для модерации контента на периферийных устройствах и мобильных телефонах. Модель обучена с нуля на наборе данных nvidia/Nemotron-3.5-Content-Safety-Dataset и достигает точности (accuracy) 81,2% и прецизионности (precision) 86,9%.

media r/LocalLLaMA · 6 ч назад

Оператор GPU-лаборатории предупреждает о мошенничестве с предзаказами на 96 ГБ RTX 4090 и 5090

Оператор GPU-лаборатории в США, сотрудничающий с китайскими фабриками по производству модифицированных печатных плат RTX 4090 на 48 ГБ, предупреждает, что объявления о продаже RTX 4090 и RTX 5090 на 96 ГБ являются мошенничеством по состоянию на июнь 2026 года.

media r/LocalLLaMA · 6 ч назад

Офлайн-инструмент подбора GPU оценивает совместимость локальных моделей и скорость работы

Разработчик выпустил офлайн-инструмент в виде одного HTML-файла, который определяет, какие локальные большие языковые модели поместятся в конкретную конфигурацию GPU, и прогнозирует скорость генерации токенов. Инструмент создан для ответа на частый вопрос о том, сможет ли кастомная сборка ПК эффективно запускать нужные модели, без необходимости использования бэкенда или создания учётной записи.

media r/LocalLLaMA · 6 ч назад

Пользователь Reddit спрашивает об обновлениях фреймворков для использования агентов в браузере и возможностях локальных моделей

Пользователь Reddit интересуется текущим состоянием фреймворков для использования агентов в браузере, конкретно спрашивая, были ли внесены улучшения для обработки длинных рабочих процессов по сравнению с предыдущим опытом.

media r/LocalLLaMA · 6 ч назад

SpectralQuant Qwen3.5 0.8B Q4_K_M восстанавливает 96,5% разрыва с BF16

Компания Spectral Labs выпустила кандидата в релизы для калибровки-осознанного квантования Q4_K_M модели Qwen3.5 0.8B, используя новый метод под названием SpectralQuant. Этот подход направлен на то, чтобы стандартные форматы Q4_K_M вели себя ближе к более крупным форматам квантования, сохраняя при этом совместимость с llama.cpp.

media Ahead of AI · 7 ч назад

Настройка локального агента для программирования с использованием инструментов с открытым исходным кодом

Эта статья представляет собой руководство по настройке полностью локальной стека агентов для программирования, готового к промышленной эксплуатации, с использованием инструментов с открытым исходным кодом и больших языковых моделей с открытыми весами. В ней подробно описывается, как объединить локально развернутую LLM с инструментом для программирования, способным читать файлы, вносить изменения, выполнять команды и проверять результаты.

media r/LocalLLaMA · 7 ч назад

Голова диффузии Orthrus, обученная на Qwen 3.5/3.6 и Gemma 4, скоро выйдет

Проект Orthrus готовится выпустить поддержку моделей Qwen 3.5, Qwen 3.6 и Gemma 4 с использованием подхода диффузионной головы. Команда завершила тестирование и в настоящее время настраивает конвейер выпуска.

media r/LocalLLaMA · 7 ч назад

Пользователь Reddit обнаружил новый режим работы с изображениями в приложении DeepSeek

Пользователь Reddit заметил новый режим работы с изображениями в приложении DeepSeek, что вызвало предположения о скором выпуске модели, способной анализировать изображения. Пользователь уточнил, что эта функция не является инструментом OCR (оптического распознавания символов), поскольку она успешно описывает изображения, не содержащие текста.

media r/LocalLLaMA · 7 ч назад

Сообщения о 96 ГБ VRAM у RTX 5090 из хуацяньбэй в Шэньчжэне

Посетители электронного рынка Хуацяньбэй в Шэньчжэне столкнулись с сообщениями и потенциальными предложениями по модифицированным видеокартам Nvidia RTX 5090, оснащенным 96 гигабайтами видеопамяти. Один из продавцов указал, что такая переделанная Blackwell RTX 6000 будет стоить примерно $8 200, включая 36 000 юаней за базовую карту и дополнительные 20 000 юаней за апгрейд памяти.

media r/LocalLLaMA · 7 ч назад

Обсуждение в Reddit о производительности дообучения Qwen

Пользователь Reddit отмечает, что хотя дообучение моделей Qwen является популярной практикой, существует заметная нехватка положительных отзывов об их производительности. Пользователь задаётся вопросом, есть ли какие-либо дообученные модели Qwen, которые действительно превзошли возможности базовой модели.

media r/LocalLLaMA · 7 ч назад

llama.cpp PR #20793: Возвращение меньшего количества синхронизаций при разделённых вычислениях

Pull request #20793 возвращает уменьшение синхронизации при операциях разделённых вычислений в llama.cpp, в первую очередь направлено на улучшение производительности CUDA. Изменения включают замену синхронных копий на асинхронные и ослабление требований к синхронизации между копиями входных данных на поддерживаемых бэкендах.

github llama.cpp · 7 ч назад

Выпуск llama.cpp b9828: улучшения Flash Attention для OpenCL и новые бинарные файлы

Выпуск llama.cpp b9828 вносит значительные улучшения в OpenCL, конкретно перерабатывая ядра Flash Attention для точности f16 и f32. Это обновление включает новые ядра предварительного прохода префилла и поддержку форматов квантования q4_0 и q8_0.

media r/LocalLLaMA · 8 ч назад

STT, способный бросить вызов Dragon Professional на Windows

Пользователь Reddit ищет локальные решения для преобразования речи в текст на основе LLM для Windows, которые могут соперничать с Dragon Professional, особенно в части редактирования вставленного текста и загрузки слов во время записи.