Все статьи
media r/LocalLLaMA · 11 д назад

SupraLabs выпустил supra-title-FFT-preview с 115K образцов

SupraLabs представил модель генерации чат-заголовков supra-title-FFT-preview, обученную на 115K образцов из отфильтрованного датасета, расширяя охват по сравнению с предыдущей моделью из 12K образцов. Модель использует полную настройку на LiquidAI/LFM2.5-350M-Base с точностью BF16 и предназначена для генерации заголовков чатов в однозадачном режиме, доступна через Hugging Face и поддерживает прямую загрузку или развертывание с помощью vLLM.

media r/LocalLLaMA · 11 д назад

RTX 5090 MSI потребление энергии и предупреждение о кабеле

RTX 5090 MSI потребляет 475-500 Вт во время инференса или тренировки диффузии. Пользователь отмечает, что не испытывает проблем с кабелем питания, подчеркивая, что его не следует изгибать для обеспечения безопасной и стабильной работы.

media r/LocalLLaMA · 11 д назад

Внимание Алгебра — грамматика, переводящая естественный язык в спектрограммы

Attention Algebra — это прототип, который переводит естественный язык в алгебраические выражения, отображает их на математические динамики и визуализирует результат в виде спектрограммы. Он рассматривает язык как потерянную проекцию высокомерных состояний, предполагая, что исходные паттерны внимания, сгруппированные в функции, служат «ДНК» текста, позволяя эффективно строить цепочки рассуждений, сокращая количество токенов с 20 тысяч до 4 тысяч.

github llama.cpp · 11 д назад

Релиз LLaMA.cpp b9732: Новые бинарники и обновления

LLaMA.cpp выпускает версию b9732 с обновлёнными бинарниками для macOS, Linux, Android, Windows и openEuler. В релизе включены переработанные сведения о коммуникации между дочерними процессами и роутером, исправления в обработке пробуждения, улучшения в функции update_status() и документации. Новые сборки поддерживают Vulkan, ROCm, OpenVINO, SYCL и CUDA 12/13 на нескольких архитектурах.

media r/LocalLLaMA · 11 д назад

Я протестировал 'Быстрый C++' Клауде. Он не был быстрее

Пользователь проверил заявленную реализацию 'Быстрого C++' Клауде и обнаружил, что она не превосходит стандартный C++ в тестах. В посте приведён ссылка на статью в Substack, в которой подробно описан процесс и результаты тестирования.

github llama.cpp · 11 д назад

ggml-webgpu Добавляет переключатели адаптера для поддержки F16 на Vulkan и NVIDIA

Проект ggml-webgpu добавил переключатели адаптера для поддержки полупrecision (F16) на видеокартах Vulkan и NVIDIA. Обновление позволяет повысить производительность на совместимом оборудовании на нескольких платформах, включая macOS, Linux, Android, Windows и openEuler, с конкретными сборками для архитектур ARM и x64.

media r/LocalLLaMA · 11 д назад

Стоимость в $1800 GPU позволяет запустить Qwen3.6-27B с контекстом в 262K и скоростью 55 ток/с

Настройка, использующая четыре видеокарты 5060 Ti (итого $1800), обеспечивает скорость 55 токенов в секунду при использовании Qwen3.6-27B-FP8, поддерживая длину контекста 262K и кэш KV в формате bfloat16. Конфигурация использует P2P и FlashInfer, при этом результаты тестирования показывают пропускную способность 55,67 токенов на выход и процент принятия спекулятивного декодирования в 65,25%.

blog Simon Willison · 11 д назад

Сеан Линч о изоляции потоков аутентификации в MCP

Сеан Линч отмечает, что протокол контекста модели (MCP) обеспечивает важное преимущество за счёт изоляции потоков аутентификации за пределы контекстного окна агента. Он предлагает, что идеальная форма MCP может быть простым шлюзом аутентификации для API, что всё равно будет значительным улучшением.

github llama.cpp · 11 д назад

llama.cpp Release b9731: Оптимизация производительности и бинарники для нескольких платформ

Версия llama.cpp b9731 вводит оптимизацию с использованием std::partial_sort для снижения расходов на сортировку токенов, что позволяет повысить производительность с 8,555 мс до 0,704 мс при выборе токенов top-n. В этом выпуске представлены предварительно скомпилированные бинарники для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и вариантах ускорения аппаратного обеспечения.

media r/LocalLLaMA · 11 д назад

Лучшие локальные агенты - июнь 2026

Обсуждение определяет лучшие локальные ИИ-агенты, доступные сегодня, подчеркивая модели с открытым весом и выполнение на локальной аппаратной части. В посте определяется понятие "агентов" как автономного программного обеспечения, которое самостоятельно принимает решения о действиях без предварительной программы, в отличие от инструментов, таких как IFTTT или Apple Shortcuts, и устанавливаются правила, требующие локальной развертывания и программного обеспечения агентов на открытом источнике как основное внимание.

media r/LocalLLaMA · 11 д назад

Помощь в запуске локального агента Hermes с использованием llama-cpp

Пользователь сообщает о проблемах при запуске локального агента AI Hermes на высокопроизводительной системе с использованием самокомпилированной версии llama-cpp. Настройка испытывает частое переработку кэша KV каждые 5 сообщений и медленное мышление, при этом агент постоянно останавливается, чтобы сообщить о прогрессе, вместо того чтобы продолжать работу автономно. Пользователь ищет руководство по тому, правильно ли настроены параметры llama-cpp, или какие настройки могут улучшить производительность агента и обеспечить стабильное мышление без прерываний.

media r/LocalLLaMA · 11 д назад

Максимизация производительности двух 3090 с использованием NVLink

Пользователь сообщает о достижении только 60 токенов в секунду в кратковременных всплесках и средней скорости 40-45 TPS при запуске модели Qwen 3.6 27B с квантованием Q8_0 на двух видеокартах GeForce 3090, соединенных через NVLink. Настройка включает Ubuntu 24.04, Ryzen 7950x3D и 64 ГБ DDR5, с видеовыводом, подключенным через eGPU.

github llama.cpp · 11 д назад

Релиз LLaMA.cpp b9729: Новые бинарники и поддержка платформ

LLaMA.cpp выпускает версию b9729 с бинарниками для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах. В релизе включены поддержка CPU, Vulkan, OpenVINO, SYCL и ROCm, а также новый пакет интерфейса. Удалены внутренние ссылки на 'webui'.

media r/LocalLLaMA · 11 д назад

SupraLabs выпустил модель SupraVL-Nano-900k для обработки изображений и языка

SupraLabs представил модель SupraVL-Nano-900k, полностью прозрачную модель из 900 тысяч параметров, обученную с нуля на наборе Flickr8k. Модель включает в себя CNN-энкодер, декодер стиля GPT-2 и метод объединения с помощью префикса, все компоненты которой полностью документированы и разработаны с целью образовательной ясности.

media r/LocalLLaMA · 11 д назад

Как настроить оптимальные параметры llama.cpp для моделей gemma 4 на GPU от AMD

Пользователи, ищущие оптимальные настройки llama.cpp для моделей gemma 4 на GPU от AMD с 16 ГБ ОЗУ, спрашивают, необходима ли проба и ошибка. Они приводят стандартные настройки Google для температуры, top-p и top-k, но отмечают непостоянные результаты, что указывает на необходимость более целенаправленных рекомендаций, выходящих за рамки официальной документации.

media r/LocalLLaMA · 11 д назад

Устранение проблемы с длительными контекстами при декодировании на Radeon R9700 с использованием vLLM 0.22.1

Проблема с производительностью при длительных контекстах на AMD Radeon AI PRO R9700 (RDNA4) была решена в vLLM 0.22.1 путем включения AITER Unified Attention. Исправление включает ослабление гейта CDNA для включения RDNA4, отключение других реализаций внимания и использование KV-кэша в формате bf16, что обеспечивает значительное ускорение при всех длинах контекста. Использование FP8 на этом оборудовании неэффективно, а нативный контекст модели в размере 262K полностью достижим при использовании bf16, обеспечивая ~2.9× параллелизм без необходимости использования FP8.