Open weights
media r/LocalLLaMA · 2 д назад

Потенциал Gemma 4 превзойти Mistral и Qwen3.6 за счёт тонкой настройки

Gemma 4 демонстрирует сильную базовую производительность и уникальные функции, такие как поддержка глобального MTP, QAT и встроенные визуальные возможности. Хотя на данный момент у модели отсутствуют широкие тонкие настройки, модели, такие как MeroMero, Equinox и Gembrain, уже продемонстрировали высокое качество, что указывает на то, что при совместных усилиях Gemma 4 может превзойти Mistral или Qwen3.6 в определённых задачах, таких как программирование и креативное письмо.

github llama.cpp · 2 д назад

llama.cpp Release b9763 Добавляет ID в ответы на вызовы инструментов

Версия llama.cpp b9763 вводит поле ID в ответах на вызовы инструментов. В этом выпуске представлены бинарники для macOS, Linux, Android, Windows и openEuler на различных архитектурах и вариантах ускорения аппаратного обеспечения, а также доступен компонент интерфейса.

media r/LocalLLaMA · 2 д назад

Идея запуска GLM2 при приемлемой квантовой настройке с GPU и DDR3

Пользователь предлагает использовать четыре видеокарты 5060 Ti с общим объемом ОЗУ 64 ГБ, работающих по интерфейсу PCIe Gen 3, для запуска GLM2 при приемлемом уровне квантования. Они предлагают добавить 512 ГБ ОЗУ DDR3 в сервере с 16 линиями PCIe и 4x4 разветвления для выгрузки хранения кэша КВ, с целью обеспечения эффективного инференса без использования единой памяти. Общая стоимость такой конфигурации оценивается в около 1700 долларов, с возможностью использования GLM2 при приемлемом уровне квантования.

media Don't Worry About the Vase · 2 д назад

GLM-5.2 — новый лучший открытый модель

GLM-5.2 достигает результатов на тестах, близких к передовым уровням, сопоставимых с Opus 4.7 в задачах только с текстом и занимающих одно из ведущих мест среди открытых моделей на нескольких тестах. Это сильнейшая открытая модель, доступная в настоящее время, превосходящая предшественники и конкурентов, таких как GPT-5.5 и Fable, хотя она не достигает высоких результатов на специализированных тестах, таких как сопротивление сихофаническим тенденциям, и имеет ограниченные возможности в области зрения.

media Hugging Face Forums · 2 д назад

BenchHub выпустил крупное обновление для открытого пространства лидерских таблиц

BenchHub выпустил крупное обновление своей платформы открытых лидерских таблиц, теперь охватывающей задачи визуального распознавания, аудио и NLP с едиными метриками и воспроизводимыми оценками. Платформа включает 95 таблиц, более 700 подач моделей и позволяет бесплатное участие при регистрации через GitHub, Google или Hugging Face, полное исследование и примеры сравнений доступны по адресу runbenchhub.com.

media r/LocalLLaMA · 3 д назад

TMax: Простой рецепт для агентов в терминале

TMax представляет TMax-15k, набор из 14 600 сред RL, превышающий на более чем 2,5 раза самый большой открытый набор сред в терминале. Также предлагается простой рецепт RL, который обучает открытые модели от 2 миллиардов до 27 миллиардов параметров, при этом TMax-9B достигает 27,2% на Terminal Bench 2.0, а TMax-27B — 42,7%.

lab Hugging Face Blog · 3 д назад

PP-OCRv6 выпущен на Hugging Face с поддержкой 50 языков

PP-OCRv6, новый модель распознавания текста, теперь доступен на Hugging Face. Он поддерживает 50 языков и масштабируется от 1,5 миллионов до 34,5 миллионов параметров, обеспечивая повышенную точность и эффективность при работе с разными языками.

media r/LocalLLaMA · 3 д назад

GLM5.2 работает на 7tg на 4х GeForce 3090 с 192 ГБ DDR5 в бюджетном сборке

Пользователь делится своими настройками домашнего лабораторного стенда с четырьмя видеокартами GeForce 3090 и 192 ГБ ОЗУ DDR5, настроенных на частоту 5600 МГц. Они запускают GLM5.2 на уровне 7 терагига (tg) как планировщик, MiniMax 2.7 на уровне 45tg в ОЗУ для программирования, и Qwen3.6 27B на уровне q8 для тестирования, всё на consumer-grade оборудовании из-за финансовых соображений.

media Hugging Face Forums · 3 д назад

Поиск наборов документов для обучения ИИ/OCR на индийских языках в Индии

QuantVectors ищет аннотированные наборы документов на индийских языках из Индии, включая хинди, маратхи, гуджарати, бенгали, панjabi, тамильский, урду, телугу, оди, каннада, мальяли и ассамский. Наборы должны включать типы документов: счет-фактура, чек, счет-счет, рекомендация по оплате, список упаковки, коммерческий счет-фактура и кредитный документ, приблизительно 400 документов на язык, аннотации, проверенные людьми, и точность не менее 99%. Наборы должны быть коммерчески лицензируемыми и могут быть либо открытого доступа, либо коммерческими, с запросом к наборам на HuggingFace, научным наборам данных или поставщикам, специализирующимся в этой области.

media MarkTechPost · 3 д назад

Инструкция по созданию интерактивных дашбордов на Python с использованием Prefab

Этот турнир демонстрирует, как создавать интерактивные дашборды на Python с использованием компонентного UI-фреймворка Prefab. Он генерирует синтетические данные для потока, интегрирует реактивные элементы управления, такие как диаграммы, формы и вкладки, и экспортирует приложение в виде статического HTML-файла для прямого просмотра в Google Colab.

media Hugging Face Forums · 3 д назад

NOVA-VAD побеждает Silero, Pyannote и WebRTC при шумном аудио с точностью 93%

NOVA-VAD, лёгкий и интерпретируемый детектор активности речи, достигает точности 93% при шумном аудио из набора данных UrbanSound8K, превосходя WebRTC (58%), Pyannote (62%) и Silero (87%). Он использует только scikit-learn, не требует GPU и предоставляет важность признаков и оценки уверенности на простом английском языке.

media Hugging Face Forums · 3 д назад

Маломасштабное сравнение отладки OLMo-core с гратом Engram

Сравнение на 200 шагов обучения между базовым моделью OLMo3 600M и версией с гратом Engram в стиле DeepSeek показывает меньшие потери при обучении и оценке, более быстрое стабилизацию нормы градиента и улучшенное поведение на ранних этапах обучения. Грат Engram, введенный в слои 1 и 5, увеличивает количество обучающихся параметров до ~1,7 млрд, но сохраняет лишь увеличение на 40 тыс. активных параметров на токен, что указывает на эффективное использование памяти.

media r/LocalLLaMA · 4 д назад

Я предобучил и постобучил 500M параметровую модель LLM и 330M параметровую генератор изображений с нуля

Автор предобучил модель языка на 500M параметров и генератор изображений на 330M параметров с нуля, используя 40B токенов из fineweb. Генератор изображений был вдохновлён архитектурой DreamLite от ByteDance и обучался на смеси датасетов из MidJourney, Flux и CCW3.

media r/LocalLLaMA · 4 д назад

Могу ли я реально достичь способностей Клауде/Кодекса локально?

Пользователь с системой на 32 ГБ спрашивает, могут ли открытые модели соответствовать производительности Opus 4.8 в контексте из 1 млн токенов и в кодировании на локальной аппаратной платформе. Он отмечает, что текущие ограничения — это длина контекста и вопросы конфиденциальности, и спрашивает, возможно ли реализовать высококачественные модели, такие как GLM 5.2 или Qwen3.7, в рамках бюджета в 3500 долларов, подчеркивая, что запуск моделей на 70-80 миллиардов параметров даёт минимальные реальные преимущества по сравнению с моделями на 27 миллиардов параметров с контекстом в 256 тысяч токенов.

media r/LocalLLaMA · 4 д назад

GLM-5.2 побеждает Гемини и GPT-5.4 в программировании, но является неэффективным

GLM-5.2 превосходит GPT-5.4 и всю линейку Гемини по производительности в программировании на бенчмарке DeepSWE. Однако он требует значительно большего количества токенов вывода, что делает его существенно менее эффективным с точки зрения затрат на задачу по сравнению с моделями, такими как GPT-5.5 и Claude Opus 4.8.

media r/LocalLLaMA · 4 д назад

Qwen 3.7 не будет открытой версии

После ухода Юньян Лина, Qwen прекратил открытую разработку своих моделей. К июню 2026 года все основные китайские лаборатории ИИ, кроме Qwen, выпустили открытые модели, которые были представлены позже, чем Qwen 3.7, который остается полностью закрытым.

media r/LocalLLaMA · 4 д назад

Лучшая открытая модель визуального анализа, работающая на RTX 6000 Pro

Пользователь ищет текущую лучшую открытую модель визуального анализа, которая может работать на RTX 6000 Pro для распознавания текста и классификации исторических сканированных документов. Он отмечает, что Gemma 4 31B работает хорошо и превосходит визуальный декодер Qwen 3.6, и просит рекомендации по моделям за пределами этой модели.

media r/LocalLLaMA · 4 д назад

Что делают люди с локальными моделями и какие инструменты они используют?

Пользователь спрашивает о практическом применении локальных моделей и о том, какие инструменты эффективны для задач, таких как программирование, особенно в качестве альтернативы веб-интерфейсам, таким как Claude.ai. Они упоминают попытку использования OpenWebUI, но отмечают, что он недостаточно мощен без значительной настройки.

media r/LocalLLaMA · 4 д назад

Что происходит, когда подписки на LLM перестают поддерживаться?

Поставщики LLM в настоящее время поддерживали дорогостоящее использование API для создания экосистем, планируя повысить цены позже. По мере того, как поддержка уменьшается, пользователи могут столкнуться с резким ростом цен — например, до 2000 долларов в месяц — что сделает доступ к сервису дорогостоящим и угрожает широкому внедрению, особенно для лиц, которые зависят от недорогого оборудования для запуска моделей.

media r/LocalLLaMA · 4 д назад

Введение в Noema Atlas: распределение моделей на основе пир-топ-пир

Noema Atlas — это бесплатная, открытая система пир-топ-пир, которая обеспечивает децентрализованное распространение локальных моделей больших языковых моделей с использованием Iroh и хеширования BLAKE3. Она позволяет пользователям делиться и получать модели напрямую с узлов по всему миру, с Hugging Face и зеркал как резервные варианты, и поддерживает восстановление моделей, удалённых с Hugging Face, через приватное распространение.