Все статьи
media r/LocalLLaMA · 10 д назад

Gemma 4 QAT лучше реагирует на квантование кэша KV

Пост на Reddit сообщает, что при использовании квантования кэша KV Gemma 4 QAT демонстрирует значительное улучшение производительности, измеренное на датасете wikitext с контекстом в 16k. Пользователь отмечает, что его аппаратные ограничения делают возможным тестирование моделей на 31B, и приглашает других исследовать полученные результаты.

media r/LocalLLaMA · 10 д назад

Вице-президент Vercel говорит, что почти шокировано от способностей GLM-5.2 в программировании

Гуильемо Рауч, вице-президент Vercel, отметил, что он 'настоящим образом впечатлен, почти шокирован' производительностью GLM-5.2 в задачах программирования. Он поделился этим комментарием в посте на X, подчеркнув сильные способности модели к генерации кода.

media r/LocalLLaMA · 10 д назад

Qwen 3.7 не будет открытой версии

После ухода Юньян Лина, Qwen прекратил открытую разработку своих моделей. К июню 2026 года все основные китайские лаборатории ИИ, кроме Qwen, выпустили открытые модели, которые были представлены позже, чем Qwen 3.7, который остается полностью закрытым.

media r/LocalLLaMA · 10 д назад

Предлагаемая модель чувств использует только эмодзи

Предлагаемая модель, называемая 'моделью чувств', предназначена для мышления исключительно через эмодзи. Идея заключается в создании первой модели, которая коммуницирует полностью через эмоциональные выражения эмодзи.

media r/LocalLLaMA · 10 д назад

AllenAI выпустил модели MolmoMotion для прогнозирования движений в будущем

AllenAI выпустил две модели MolmoMotion, которые прогнозируют трёхмерные траектории точек на основе коротких историй видео и естественных языковых инструкций. Одна модель использует историю из трёх кадров, другая — из одного кадра, что позволяет прогнозировать будущее движение объектов в трёхмерном пространстве.

media r/LocalLLaMA · 10 д назад

SupraLabs запускает семейство моделей Any2Any

SupraLabs представила модель Supra-A2A-Nano-Exp, многомодальную модель на 30 млн параметров, которая объединяет текст, изображения и видео в один поток токенов. Модель рассматривает все модальности как токены в общей последовательности, позволяя проводить моделирование языка на совокупном словаре из 50 520 токенов без отдельных визуальных кодировщиков или модулей перекрестного внимания.

media r/LocalLLaMA · 10 д назад

Что вы перепроектируете, на что никто никогда не будет использовать? Будьте честны.

Пост на Reddit просит пользователей быть честными в отношении перепроектированных функций или систем, которые никто никогда не будет использовать. Пост побуждает к размышлениям о ненужной сложности в разработке программного обеспечения.

github llama.cpp · 10 д назад

Релиз LLaMA.cpp b9744: Новые бинарники и функции

LLaMA.cpp выпускает версию b9746 с обновлёнными бинарниками для macOS, Linux, Android, Windows и openEuler. В релизе включено поддержка нескольких архитектур и аппаратных ускорителей, таких как Vulkan, CUDA, OpenVINO, SYCL и ROCm. Также доступен пакет интерфейса для доступа к пользовательскому интерфейсу.

media r/LocalLLaMA · 10 д назад

Лучшая открытая модель визуального анализа, работающая на RTX 6000 Pro

Пользователь ищет текущую лучшую открытую модель визуального анализа, которая может работать на RTX 6000 Pro для распознавания текста и классификации исторических сканированных документов. Он отмечает, что Gemma 4 31B работает хорошо и превосходит визуальный декодер Qwen 3.6, и просит рекомендации по моделям за пределами этой модели.

media r/LocalLLaMA · 10 д назад

semantic-memory: локальная база знаний с типизированными графовыми рёбрами

semantic-memory — это локальная база знаний на языке Rust, которая объединяет поисковые методы BM25, векторного поиска и синтеза по рекурсивному ранжированию с SQLite. В ней реализованы типизированные графовые рёбра для причинных, временных и семантических связей, отслеживание происхождения, би-временная хранение и адаптивное направление запросов, поддерживая 18 инструментов MCP для ИИ-агентов. Все компоненты работают локально без зависимостей от облака, ключей API или телеметрии.

media r/LocalLLaMA · 10 д назад

Что я могу запустить на моей системе Tesla V100 32GB?

С GPU Tesla V100 32GB и системой из двух процессоров Xeon на Dell PowerEdge 730 с 384 ГБ DDR4 и несколькими терабайтами хранилища пользователи могут запускать локальные большие языковые модели (LLM) для экспериментов. Объем памяти и хранилища системы обеспечивает эффективное локальное выполнение и обучение моделей.

media r/LocalLLaMA · 10 д назад

Что делают люди с локальными моделями и какие инструменты они используют?

Пользователь спрашивает о практическом применении локальных моделей и о том, какие инструменты эффективны для задач, таких как программирование, особенно в качестве альтернативы веб-интерфейсам, таким как Claude.ai. Они упоминают попытку использования OpenWebUI, но отмечают, что он недостаточно мощен без значительной настройки.

media r/LocalLLaMA · 10 д назад

Что происходит, когда подписки на LLM перестают поддерживаться?

Поставщики LLM в настоящее время поддерживали дорогостоящее использование API для создания экосистем, планируя повысить цены позже. По мере того, как поддержка уменьшается, пользователи могут столкнуться с резким ростом цен — например, до 2000 долларов в месяц — что сделает доступ к сервису дорогостоящим и угрожает широкому внедрению, особенно для лиц, которые зависят от недорогого оборудования для запуска моделей.

media r/LocalLLaMA · 10 д назад

Введение в Noema Atlas: распределение моделей на основе пир-топ-пир

Noema Atlas — это бесплатная, открытая система пир-топ-пир, которая обеспечивает децентрализованное распространение локальных моделей больших языковых моделей с использованием Iroh и хеширования BLAKE3. Она позволяет пользователям делиться и получать модели напрямую с узлов по всему миру, с Hugging Face и зеркал как резервные варианты, и поддерживает восстановление моделей, удалённых с Hugging Face, через приватное распространение.

github llama.cpp · 11 д назад

llama.cpp Release b9742: Обновлено с использованием заполненного шага для весов SSM-conv

Версия llama.cpp b9742 вводит заполненный шаг для весов SSM-conv, что повышает эффективность операций в нейронных сетях. В этом выпуске представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и API, включая Vulkan, CUDA, OpenVINO и SYCL.