Все статьи — korshunov.ai

Все статьи Страница 1 / 129

Gemma 4 QAT лучше реагирует на квантование кэша KV

Пост на Reddit сообщает, что при использовании квантования кэша KV Gemma 4 QAT демонстрирует значительное улучшение производительности, измеренное на датасете wikitext с контекстом в 16k. Пользователь отмечает, что его аппаратные ограничения делают возможным тестирование моделей на 31B, и приглашает других исследовать полученные результаты.

media r/LocalLLaMA · 10 д назад

Fable против GLM 5.2 против KIMI K2.7 (YouTube-видео)

YouTube-видео сравнивает производительность Fable, GLM 5.2 и KIMI K2.7. Видео размещено на Reddit'е в разделе r/LocalLLaMA и содержит ссылку на видео и связанные комментарии.

media r/LocalLLaMA · 10 д назад

Вице-президент Vercel говорит, что почти шокировано от способностей GLM-5.2 в программировании

Гуильемо Рауч, вице-президент Vercel, отметил, что он 'настоящим образом впечатлен, почти шокирован' производительностью GLM-5.2 в задачах программирования. Он поделился этим комментарием в посте на X, подчеркнув сильные способности модели к генерации кода.

media r/LocalLLaMA · 10 д назад

Qwen 3.7 не будет открытой версии

После ухода Юньян Лина, Qwen прекратил открытую разработку своих моделей. К июню 2026 года все основные китайские лаборатории ИИ, кроме Qwen, выпустили открытые модели, которые были представлены позже, чем Qwen 3.7, который остается полностью закрытым.

media r/LocalLLaMA · 10 д назад

Предлагаемая модель чувств использует только эмодзи

Предлагаемая модель, называемая 'моделью чувств', предназначена для мышления исключительно через эмодзи. Идея заключается в создании первой модели, которая коммуницирует полностью через эмоциональные выражения эмодзи.

media r/LocalLLaMA · 10 д назад

Кими AI просто отправил мне письмо

Пользователь сообщает, что получил письмо от Kimi.ai, связанное с одним из их видео на YouTube. Сообщение было поделено в Reddit в сообществе LocalLLaMA.

media r/LocalLLaMA · 10 д назад

AllenAI выпустил модели MolmoMotion для прогнозирования движений в будущем

AllenAI выпустил две модели MolmoMotion, которые прогнозируют трёхмерные траектории точек на основе коротких историй видео и естественных языковых инструкций. Одна модель использует историю из трёх кадров, другая — из одного кадра, что позволяет прогнозировать будущее движение объектов в трёхмерном пространстве.

media r/LocalLLaMA · 10 д назад

SupraLabs запускает семейство моделей Any2Any

SupraLabs представила модель Supra-A2A-Nano-Exp, многомодальную модель на 30 млн параметров, которая объединяет текст, изображения и видео в один поток токенов. Модель рассматривает все модальности как токены в общей последовательности, позволяя проводить моделирование языка на совокупном словаре из 50 520 токенов без отдельных визуальных кодировщиков или модулей перекрестного внимания.

media r/LocalLLaMA · 10 д назад

Что вы перепроектируете, на что никто никогда не будет использовать? Будьте честны.

Пост на Reddit просит пользователей быть честными в отношении перепроектированных функций или систем, которые никто никогда не будет использовать. Пост побуждает к размышлениям о ненужной сложности в разработке программного обеспечения.

github llama.cpp · 10 д назад

Релиз LLaMA.cpp b9744: Новые бинарники и функции

LLaMA.cpp выпускает версию b9746 с обновлёнными бинарниками для macOS, Linux, Android, Windows и openEuler. В релизе включено поддержка нескольких архитектур и аппаратных ускорителей, таких как Vulkan, CUDA, OpenVINO, SYCL и ROCm. Также доступен пакет интерфейса для доступа к пользовательскому интерфейсу.

media r/LocalLLaMA · 10 д назад

Лучшая открытая модель визуального анализа, работающая на RTX 6000 Pro

Пользователь ищет текущую лучшую открытую модель визуального анализа, которая может работать на RTX 6000 Pro для распознавания текста и классификации исторических сканированных документов. Он отмечает, что Gemma 4 31B работает хорошо и превосходит визуальный декодер Qwen 3.6, и просит рекомендации по моделям за пределами этой модели.

media r/LocalLLaMA · 10 д назад

semantic-memory: локальная база знаний с типизированными графовыми рёбрами

semantic-memory — это локальная база знаний на языке Rust, которая объединяет поисковые методы BM25, векторного поиска и синтеза по рекурсивному ранжированию с SQLite. В ней реализованы типизированные графовые рёбра для причинных, временных и семантических связей, отслеживание происхождения, би-временная хранение и адаптивное направление запросов, поддерживая 18 инструментов MCP для ИИ-агентов. Все компоненты работают локально без зависимостей от облака, ключей API или телеметрии.

media r/LocalLLaMA · 10 д назад

Что я могу запустить на моей системе Tesla V100 32GB?

С GPU Tesla V100 32GB и системой из двух процессоров Xeon на Dell PowerEdge 730 с 384 ГБ DDR4 и несколькими терабайтами хранилища пользователи могут запускать локальные большие языковые модели (LLM) для экспериментов. Объем памяти и хранилища системы обеспечивает эффективное локальное выполнение и обучение моделей.

media r/LocalLLaMA · 10 д назад

Что делают люди с локальными моделями и какие инструменты они используют?

Пользователь спрашивает о практическом применении локальных моделей и о том, какие инструменты эффективны для задач, таких как программирование, особенно в качестве альтернативы веб-интерфейсам, таким как Claude.ai. Они упоминают попытку использования OpenWebUI, но отмечают, что он недостаточно мощен без значительной настройки.

media r/LocalLLaMA · 10 д назад

Что происходит, когда подписки на LLM перестают поддерживаться?

Поставщики LLM в настоящее время поддерживали дорогостоящее использование API для создания экосистем, планируя повысить цены позже. По мере того, как поддержка уменьшается, пользователи могут столкнуться с резким ростом цен — например, до 2000 долларов в месяц — что сделает доступ к сервису дорогостоящим и угрожает широкому внедрению, особенно для лиц, которые зависят от недорогого оборудования для запуска моделей.

media r/LocalLLaMA · 10 д назад

Кто-нибудь запускает MiniMax M3 с pipenetwork Mixed 3_6 Quant?

Пользователь спрашивает, кто-нибудь запускает MiniMax M3 с использованием pipenetwork и 3_6 квантования на системе с только 256 ГБ единых оперативных памяти.

media r/LocalLLaMA · 10 д назад

Введение в Noema Atlas: распределение моделей на основе пир-топ-пир

Noema Atlas — это бесплатная, открытая система пир-топ-пир, которая обеспечивает децентрализованное распространение локальных моделей больших языковых моделей с использованием Iroh и хеширования BLAKE3. Она позволяет пользователям делиться и получать модели напрямую с узлов по всему миру, с Hugging Face и зеркал как резервные варианты, и поддерживает восстановление моделей, удалённых с Hugging Face, через приватное распространение.

github llama.cpp · 11 д назад

llama.cpp Release b9742: Обновлено с использованием заполненного шага для весов SSM-conv

Версия llama.cpp b9742 вводит заполненный шаг для весов SSM-conv, что повышает эффективность операций в нейронных сетях. В этом выпуске представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и API, включая Vulkan, CUDA, OpenVINO и SYCL.

github llama.cpp · 11 д назад

llama.cpp Release b9743 Adds New Binaries and GPU Support

llama.cpp version b9743 introduces new binaries for macOS, Linux, Android, Windows, and openEuler across multiple architectures. The release includes support for Vulkan, CUDA 12.4 and 13.3, OpenVINO, SYCL, and ROCm, with updated UI and improved parser spacing rules via JSON schema to grammar alignment.

lab Claude Code Releases · 11 д назад

Обновлено подсказка о простоях потока в v2.1.185

Теперь подсказка о простоях потока отображает "Ожидание ответа от API · повтор попытки через …" и активируется спустя 20 секунд без ответа, заменяя предыдущее сообщение и задержку.