Все статьи — korshunov.ai

Все статьи Страница 1 / 106

Выпуск llama.cpp b9828: улучшения Flash Attention для OpenCL и новые бинарные файлы

Выпуск llama.cpp b9828 вносит значительные улучшения в OpenCL, конкретно перерабатывая ядра Flash Attention для точности f16 и f32. Это обновление включает новые ядра предварительного прохода префилла и поддержку форматов квантования q4_0 и q8_0.

media r/LocalLLaMA · 6 ч назад

Пользователь спрашивает, когда поддержка объединённых DeepSeek V4 Flash и MiniMax M3 появится в llama.cpp

Пользователь Reddit запрашивает примерные сроки официального слияния поддержки моделей DeepSeek V4 Flash и MiniMax M3 в основной репозиторий llama.cpp.

media r/LocalLLaMA · 6 ч назад

STT, способный бросить вызов Dragon Professional на Windows

Пользователь Reddit ищет локальные решения для преобразования речи в текст на основе LLM для Windows, которые могут соперничать с Dragon Professional, особенно в части редактирования вставленного текста и загрузки слов во время записи.

media r/LocalLLaMA · 6 ч назад

Ornith-1.0-35B Q3_K_M: ~17 ГБ VRAM, проверено по KLD против BF16

Автор квантовал модель deepreinforce-ai/Ornith-1.0-35B до формата Q3_K_M, уменьшив её размер примерно до 17 ГБ VRAM, сохранив поведенческую валидность через проверки расхождения Кульбака-Лейблера.

media r/LocalLLaMA · 6 ч назад

ContextForge: локальный SDK для долговременной памяти, который действительно выдерживает длительные запуски

ContextForge — это новый SDK, предназначенный для обеспечения практически неограниченного контекста для LLM без перегрузки окна промпта. Он решает распространенную проблему сбоев систем долговременной памяти во время длительных запусков, рассматривая окно контекста как динамический рабочий набор, а не постоянное хранилище.

media r/LocalLLaMA · 6 ч назад

Устранение неполадок с P2P при разделении 4x5060 Ti

Инженер облачных систем сообщает, что использование одной карты PCIe x16 с одним разветвителем 4x4 для подключения четырёх GPU создаёт узкое место пропускной способности для связи peer-to-peer (P2P). Этот узкий момент насыщает сеть, соединяющую карты, что приводит к производительности хуже, чем при отключённом P2P.

media r/LocalLLaMA · 6 ч назад

Пользователь спрашивает о дистилляции моделей для агентного доказательства теорем

Пользователь на r/LocalLLaMA рассматривает возможность самостоятельного хостинга моделей для агентного доказательства теорем с целью снижения затрат, так как у него есть финансирование оборудования, но нет кредитов LLM. Он предлагает дистиллировать возможности из большей модели в меньшую, подходящую для узкоспециализированных случаев использования, таких как Rocq, отмечая отсутствие существующих моделей для этого конкретного языка.

blog Simon Willison · 6 ч назад

Дин У. Болл о динамике индустрии ИИ и глобальных рынках

Дин У. Болл подчеркивает критическую динамику отрасли, при которой высокие затраты на обучение моделей уровня frontier окупаются лишь в узком окне после выпуска, прежде чем конкуренция сожмет маржу.

media r/LocalLLaMA · 6 ч назад

Пользователь приобрёл б/у Minisforum MS-S1 Max для локальных LLM-нагрузок

Пользователь делится решением приобрести слегка б/у Minisforum MS-S1 Max с 128 ГБ памяти примерно за US$2800, указывая рост стоимости оборудования Apple и закрытых моделей как основные мотивы. Автор положительно оценивает эту покупку по сравнению с новым Geekom A9 Mega, выделяя конкретные преимущества MS-S1: сеть 10Gbe, USB4v2 со скоростью 80 Гбит/с, слот PCIe и внутренний блок питания.

media r/LocalLLaMA · 6 ч назад

Улучшения Kokoro портированы для веб- и Python-проектов

Автор выпустил веб- и Python-версии улучшений голосовых настроек Kokoro, предназначенные для легкой интеграции в другие проекты. Обе реализации полностью работают на стороне клиента; при включении аппаратного ускорения через WebGPU веб-версия обеспечивает время генерации около 40 мс.

media r/LocalLLaMA · 6 ч назад

Nemotron-3-Super-120B-A12B достигает идеального поиска иголки в стоге сена на 504K токенов на 4×3090

Пользователь протестировал модель NVIDIA Nemotron-3-Super-120B-A12B, которая сочетает гибридные архитектуры Mamba и MoE, достигнув точного извлечения в тестах «иголка в стоге сена» до 504 482 токенов. Модель была запущена полностью на GPU на четырех RTX 3090 с использованием квантования i1-Q4_K_S, продемонстрировав, что слои Mamba поддерживают постоянное состояние рекуррентной сети, а не растущий KV-кэш.

media r/LocalLLaMA · 7 ч назад

Тестирование Qwen3.6-35B-A3B на RTX 3060 для извлечения данных чеков в JSON

Пользователь заменил Google Vision в конвейере обработки чеков локальной моделью Qwen3.6-35B-A3B, работающей на GPU RTX 3060. Эксперимент показал, что локальная конфигурация успешно парсит ключевые поля из японских чеков в формат JSON.

blog Simon Willison · 7 ч назад

Тимоти Б. Ли о больших языковых моделях и кривых обучения

Тимоти Б. Ли критикует представление о том, что использование больших языковых моделей не требует никаких навыков или кривой обучения.

media r/LocalLLaMA · 7 ч назад

Конфигурация для ежедневной бета-версии llama.cpp с Vulkan на 7900xtx/ubuntu

Пользователь делится скриптом конфигурации bash для запуска модели Qwen3.6-35B-A3B IQ4_XS с использованием бэкенда Vulkan в llama.cpp на GPU AMD 7900 XTX под управлением Ubuntu.

media r/LocalLLaMA · 7 ч назад

Обновил бюджетную сборку до мульти-GPU для инференса

Пользователь обновил бюджетный ПК, добавив две RTX 3090 и одну Intel Arc A770, чтобы протестировать производительность мульти-GPU инференса с помощью llama.cpp. Основной вывод заключается в том, что бэкенд Vulkan вызывает чрезмерные накладные расходы на память по сравнению с CUDA, что делает его непригодным для смешанных конфигураций от разных производителей.

media r/LocalLLaMA · 7 ч назад

vulkan: сделать TP жизнеспособным от pwilkin · Pull Request #25051

Pull request, отправленный в репозиторий ggml-org/llama.cpp, направлен на повышение жизнеспособности тензорного параллелизма Vulkan. Автор, идентифицированный как Piotr, реализовал изменения, призванные сделать эту функцию более удобной для использования.

media r/LocalLLaMA · 7 ч назад

Разработчик создаёт локально-ориентированный фреймворк для LLM и запрашивает обратную связь от сообщества

Разработчик с 45-летним опытом в разработке программного обеспечения завершает создание локально-ориентированного фреймворка для запуска локальных моделей и моделей через API, включающего логику работы с несколькими агентами. Автор потратил шесть месяцев на разработку инструментов для улучшения рабочего процесса с локальными LLM и теперь спрашивает сообщество, какие функции могли бы улучшить их опыт.

media r/LocalLLaMA · 7 ч назад

Почему люди продолжают инвестировать в Intel в сфере ИИ?

Статья ставит под сомнение обоснование классификации Wall Street акций Intel как инвестиций в «лопатки и кирки» для ИИ, задаваясь вопросом, кто на самом деле покупает оборудование Intel для центров обработки данных с ИИ.

media r/LocalLLaMA · 8 ч назад

Пользователь Reddit ищет советы по многомодельным бэкендам и переключению конфигураций

Пользователь Reddit планирует развернуть машину с несколькими GPU для обслуживания моделей Coding и Hermes, ища решения, которые позволяют гибко менять конфигурации без ручного вмешательства.

media r/LocalLLaMA · 8 ч назад

Рассмотрите постобучение вместо бенчмарков для нового оборудования

Автор утверждает, что приобретение нового оборудования следует использовать для контролируемой тонкой настройки (SFT) и усиленной тонкой настройки (RFT), а не для стандартного бенчмаркинга моделей. Этот подход предлагает жизнеспособный путь к монетизации за счет использования открытых моделей, особенно по мере того, как проприетарные API становятся менее доступными или более дорогими.