Все статьи
github llama.cpp · 9 д назад

llama.cpp release b9758 добавляет поддержку bf16 и расширенную совместимость компиляторов

llama.cpp release b9758 вводит поддержку bf16 для операций bin_bcast и unary. Также расширяется совместимость с более старыми компиляторами Intel, чем версия 2026.0, с новыми сборками, доступными для платформ macOS, Linux, Android, Windows и openEuler, включая поддержку Vulkan, OpenVINO, SYCL и CUDA.

media r/LocalLLaMA · 9 д назад

Нет европейских поставщиков инференса для GLM 5.2 или DeepSeek V4 Flash

Пользователь Reddit отмечает, что Openrouter перечисляет 16 поставщиков для GLM 5.2, все из США, Сингапура или Китая. Пользователь задаёт вопрос о том, почему отсутствуют европейские поставщики, работающие с открытыми моделями из Китая, такими как GLM 5.2 или DeepSeek V4 Flash.

media r/LocalLLaMA · 9 д назад

QAT KV Cache Quantization для Gemma 4 31B показывает огромное улучшение

QAT KV cache quantization для Gemma 4 31B значительно снижает KL-разброс по сравнению с стандартными квантованиями. QAT q8_0 достигает максимального разброса в 1,5, что на порядок превосходит стандартное q4_0, а QAT q4_0 превосходит стандартное q8_0 по производительности, при значительно меньшем отклонении выходных данных и отсутствии катастрофических выбросов.

media r/LocalLLaMA · 9 д назад

Отчет по техническим характеристикам Ling и Ring 2.6: выпуск моделей с параметрами в триллион

Ling и Ring 2.6 выпустили базовые модели Ling-2.6-1T и Ling-2.6-flash, которые доступны на Hugging Face. Модель Ling-2.6-flash (100B параметров) обеспечивает быструю инференс-обработку для пользователей с 24-32 ГБ VRAM, обеспечивая высокую производительность при инференсе только на процессоре с 32 ГБ ОЗУ.

media r/LocalLLaMA · 10 д назад

Gemma 4 QAT 31B лучше реагирует на квантование кэша KV

Бенчмарк показывает, что Gemma 4 QAT 31B работает лучше при квантовании кэша KV по сравнению с предыдущими версиями. Результаты были получены из поста на форуме LocalLLaMA, где пользователь justicecurcian поделился данными о производительности.

github llama.cpp · 10 д назад

Исправление сбоя при редактировании файла при добавлении в конец файла

Сбой при редактировании файла при добавлении в конец файла был исправлен за счёт нормализации -1 в n (вставка в конец) вместо n+1. Патч ограничивает -1 для режима добавления и отклоняет его для операций замены/удаления, чтобы предотвратить незаметное перезаписывание последней строки, и обеспечивает вычисление смещения вставки как целого числа, чтобы избежать переполнения кучи.

media r/LocalLLaMA · 10 д назад

Добавлено поддержка Flash MTP3 Step3.5/3.7

Призыв к изменению добавляет поддержку Flash MTP3 Step3.5 и Step3.7 в llama.cpp. Это улучшение обеспечивает более высокую производительность при работе с определёнными моделями за счёт использования операций MTP3 на нескольких слоях. Обновление доступно в последней версии llama.cpp и является продолжением запроса PR #23274.

media r/LocalLLaMA · 10 д назад

Gemma 4 31B Q6 работает со скоростью 8-9 токенов в секунду на двух картах NVIDIA 9060 XT

Пользователь сообщает о запуске Gemma 4 31B Q6 на двух картах NVIDIA 9060 XT по 16 ГБ, при этом достигается стабильная пропускная способность в диапазоне 8-9 токенов в секунду. Они отмечают, что производительность является приемлемой, но ниже ожиданий, что указывает на возможные оптимизации или ограничения аппаратного обеспечения.

media r/LocalLLaMA · 10 д назад

Скоро ли станет доступным специализированное оборудование для локальных крупных языковых моделей?

Пользователи спрашивают, станет ли специализированное оборудование для запуска локальных крупных языковых моделей доступным для потребителей в ближайшее время. Они отмечают, что хотя модели, такие как Qwen 27B, эффективны, затраты на оборудование остаются высокими, и уточняют, сможет ли китайская промышленность, несмотря на трудности в производстве чипов и программном обеспечении, предложить решения с низкими затратами и масштабируемостью.

media MarkTechPost · 10 д назад

7 типов памяти агента: техническое руководство

Большие языковые модели по умолчанию являются безсостоятельными и требуют механизмов памяти для сохранения контекста между взаимодействиями. Семь типов памяти агента — рабочая, семантическая, эпизодическая, процедурная, извлечения, параметрическая и прозрачная — классифицируют память по форме и продолжительности, позволяя агентам планировать, учиться и действовать в течение времени. Каждый тип выполняет определенные задачи, от хранения предпочтений пользователей до планирования будущих целей, и вместе они образуют комплексную систему для долгосрочных, контекстосознательных ИИ-агентов.

media MarkTechPost · 10 д назад

Инструкция по созданию интерактивных дашбордов на Python с использованием Prefab

Этот турнир демонстрирует, как создавать интерактивные дашборды на Python с использованием компонентного UI-фреймворка Prefab. Он генерирует синтетические данные для потока, интегрирует реактивные элементы управления, такие как диаграммы, формы и вкладки, и экспортирует приложение в виде статического HTML-файла для прямого просмотра в Google Colab.

media Hugging Face Forums · 10 д назад

Навык не заключен в весах: эмпирический отрицательный результат по проекции весов MLP

Эмпирическое исследование показало, что проекция весов MLP одного трансформера на другой не передает семантической способности. Каждая проверенная вариация показала худшие результаты по сравнению с неизменным хост-моделем, что указывает на структурное ограничение проекции весов. Результаты оспаривают публичные утверждения о способностях моделей на основе бенчмарков, демонстрируя, что такие утверждения не отражают реальную внутреннюю геометрию весов.

media Hugging Face Forums · 10 д назад

Тьма из механизмов: локальный первый движок AI-ролевой игры с сюжетом

Тьма из механизмов — это локальный первый движок ролевой игры с сюжетом, использующий детерминированный конечный автомат для разрешения всех игровых механик. В движке присутствуют два автономных языковых модели, которые рассказывают сюжет: один выступает в роли спокойного голоса мира, другой — как ненадёжный, божественный помощник. Игра предлагает игрокам выбор: сражаться с приближающейся сверхъестественной коррупцией или принять спокойную жизнь в пекарне, при этом оба пути считаются законченными вариантами.

media Hugging Face Forums · 10 д назад

Бесконечно застревает на 'запуске' с контейнером Docker, работающим с R/Shiny на rocker/r2u

Пользователь сообщает, что его контейнер Docker с R/Shiny на rocker/r2u успешно собирается и в логах отображается "Слушаю на http://0.0.0.0:78-60", однако пространство остается в состоянии "запуске" и недоступно. Проблема сохраняется при отсутствии ошибок в коде, и пользователь просит обратить внимание на более широкий масштаб, указывая, что это может быть проблема платформы с Hugging Face.

media Hugging Face Forums · 10 д назад

NOVA-VAD побеждает Silero, Pyannote и WebRTC при шумном аудио с точностью 93%

NOVA-VAD, лёгкий и интерпретируемый детектор активности речи, достигает точности 93% при шумном аудио из набора данных UrbanSound8K, превосходя WebRTC (58%), Pyannote (62%) и Silero (87%). Он использует только scikit-learn, не требует GPU и предоставляет важность признаков и оценки уверенности на простом английском языке.

media Hugging Face Forums · 10 д назад

Маломасштабное сравнение отладки OLMo-core с гратом Engram

Сравнение на 200 шагов обучения между базовым моделью OLMo3 600M и версией с гратом Engram в стиле DeepSeek показывает меньшие потери при обучении и оценке, более быстрое стабилизацию нормы градиента и улучшенное поведение на ранних этапах обучения. Грат Engram, введенный в слои 1 и 5, увеличивает количество обучающихся параметров до ~1,7 млрд, но сохраняет лишь увеличение на 40 тыс. активных параметров на токен, что указывает на эффективное использование памяти.

media Hugging Face Forums · 10 д назад

LLM как эпистемические ускорители: риск заключается не только в халлюцинациях

LLM не просто халлюцинируют; они усиливают эпистемическую уверенность человека, превращая слабые гипотезы в согласованные, хорошо оформленные утверждения до того, как доказательства будут подтверждены. Это создает риск преждевременной уверенности в исследованиях, политике и других областях, не потому что модели лгут, а потому что они ускоряют склонность человека к выбору элегантных объяснений вместо неопределенности.

media Hugging Face Forums · 10 д назад

Пространство застряло на 'Перезапуске' в старой версии коммита на 16+ часов

Пространство Hugging Face застряло на отображении 'Перезапуск' в коммите 8240352 более чем на 16 часов, несмотря на то, что несколько более новых коммитов успешно собираются. Контейнер запускается здорово в логах, однако трафик никогда не переключается на новую версию, и действия по восстановлению, такие как перезапуск или восстановление из заводских настроек, не оказывают эффекта.