Все статьи
media r/LocalLLaMA · 5 ч назад

Пользователь приобрёл б/у Minisforum MS-S1 Max для локальных LLM-нагрузок

Пользователь делится решением приобрести слегка б/у Minisforum MS-S1 Max с 128 ГБ памяти примерно за US$2800, указывая рост стоимости оборудования Apple и закрытых моделей как основные мотивы. Автор положительно оценивает эту покупку по сравнению с новым Geekom A9 Mega, выделяя конкретные преимущества MS-S1: сеть 10Gbe, USB4v2 со скоростью 80 Гбит/с, слот PCIe и внутренний блок питания.

media r/LocalLLaMA · 5 ч назад

Улучшения Kokoro портированы для веб- и Python-проектов

Автор выпустил веб- и Python-версии улучшений голосовых настроек Kokoro, предназначенные для легкой интеграции в другие проекты. Обе реализации полностью работают на стороне клиента; при включении аппаратного ускорения через WebGPU веб-версия обеспечивает время генерации около 40 мс.

media r/LocalLLaMA · 5 ч назад

Nemotron-3-Super-120B-A12B достигает идеального поиска иголки в стоге сена на 504K токенов на 4×3090

Пользователь протестировал модель NVIDIA Nemotron-3-Super-120B-A12B, которая сочетает гибридные архитектуры Mamba и MoE, достигнув точного извлечения в тестах «иголка в стоге сена» до 504 482 токенов. Модель была запущена полностью на GPU на четырех RTX 3090 с использованием квантования i1-Q4_K_S, продемонстрировав, что слои Mamba поддерживают постоянное состояние рекуррентной сети, а не растущий KV-кэш.

media r/LocalLLaMA · 6 ч назад

Тестирование Qwen3.6-35B-A3B на RTX 3060 для извлечения данных чеков в JSON

Пользователь заменил Google Vision в конвейере обработки чеков локальной моделью Qwen3.6-35B-A3B, работающей на GPU RTX 3060. Эксперимент показал, что локальная конфигурация успешно парсит ключевые поля из японских чеков в формат JSON.

media r/LocalLLaMA · 6 ч назад

Обновил бюджетную сборку до мульти-GPU для инференса

Пользователь обновил бюджетный ПК, добавив две RTX 3090 и одну Intel Arc A770, чтобы протестировать производительность мульти-GPU инференса с помощью llama.cpp. Основной вывод заключается в том, что бэкенд Vulkan вызывает чрезмерные накладные расходы на память по сравнению с CUDA, что делает его непригодным для смешанных конфигураций от разных производителей.

media r/LocalLLaMA · 6 ч назад

vulkan: сделать TP жизнеспособным от pwilkin · Pull Request #25051

Pull request, отправленный в репозиторий ggml-org/llama.cpp, направлен на повышение жизнеспособности тензорного параллелизма Vulkan. Автор, идентифицированный как Piotr, реализовал изменения, призванные сделать эту функцию более удобной для использования.

media r/LocalLLaMA · 6 ч назад

Разработчик создаёт локально-ориентированный фреймворк для LLM и запрашивает обратную связь от сообщества

Разработчик с 45-летним опытом в разработке программного обеспечения завершает создание локально-ориентированного фреймворка для запуска локальных моделей и моделей через API, включающего логику работы с несколькими агентами. Автор потратил шесть месяцев на разработку инструментов для улучшения рабочего процесса с локальными LLM и теперь спрашивает сообщество, какие функции могли бы улучшить их опыт.

media r/LocalLLaMA · 6 ч назад

Почему люди продолжают инвестировать в Intel в сфере ИИ?

Статья ставит под сомнение обоснование классификации Wall Street акций Intel как инвестиций в «лопатки и кирки» для ИИ, задаваясь вопросом, кто на самом деле покупает оборудование Intel для центров обработки данных с ИИ.

media r/LocalLLaMA · 7 ч назад

Пользователь Reddit ищет советы по многомодельным бэкендам и переключению конфигураций

Пользователь Reddit планирует развернуть машину с несколькими GPU для обслуживания моделей Coding и Hermes, ища решения, которые позволяют гибко менять конфигурации без ручного вмешательства.

media r/LocalLLaMA · 7 ч назад

Рассмотрите постобучение вместо бенчмарков для нового оборудования

Автор утверждает, что приобретение нового оборудования следует использовать для контролируемой тонкой настройки (SFT) и усиленной тонкой настройки (RFT), а не для стандартного бенчмаркинга моделей. Этот подход предлагает жизнеспособный путь к монетизации за счет использования открытых моделей, особенно по мере того, как проприетарные API становятся менее доступными или более дорогими.

blog Simon Willison · 7 ч назад

Зрелищный гипотетический инцидент от Эндрю Несбита

Эндрю Несбит опубликовал спекулятивный отчет об инциденте, описывающий сценарий, в котором два агента ИИ-рецензирования от конкурирующих поставщиков попадают в цикл разногласий относительно безопасности пакета 'foxhole-lz4'.

media r/LocalLLaMA · 7 ч назад

Потоковая передача медицинского STT, работающая локально на MacBook

Разработчик создал потоковую модель преобразования медицинской речи в текст, которая работает полностью на устройстве, продемонстрированную с помощью MLX на MacBook. В настоящее время проект проходит дополнительные оценки, а открытый вес планируется выпустить на следующей неделе.

media r/LocalLLaMA · 7 ч назад

Рецензия на книгу «Доменно-специфичные малые языковые модели» Гульельмо Иоддзиа

В данной рецензии оценивается книга Гульельмо Иоддзиа «Доменно-специфичные малые языковые модели», в которой предлагается сдвиг парадигмы от универсальных больших языковых моделей к специализированным, дообученным малым языковым моделям (SLM). Рецензент утверждает, что SLM обеспечивают лучший контроль, прозрачность и экономическую эффективность для узких задач по сравнению с хайпом вокруг искусственного общего интеллекта.

media r/LocalLLaMA · 7 ч назад

Пайплайн Distill-on-idle для помощника с памятью на устройстве с использованием моделей 4B

В статье описывается инженерный подход к созданию локального ИИ-ассистента, который преобразует сырые скриншоты и расшифровки встреч в данные, доступные для запросов, используя только модели, эффективно работающие на ноутбуках. Система использует фреймворк Apple Vision для OCR, дистилляцию во время простоя модели Gemma 4B и гибридный поиск для избежания узких мест производительности.

blog Simon Willison · 7 ч назад

OpenAI демонстрирует серию GPT-5.6 с моделями Sol, Terra и Luna

OpenAI запустила ограниченный предпросмотр серии моделей GPT-5.6, представив три различных варианта: Sol в качестве флагмана, Terra для сбалансированной повседневной работы и Luna для быстрых и доступных задач. Компания планирует сделать эти модели общедоступными в ближайшие недели после этого начального этапа с доверенными партнерами.

media r/LocalLLaMA · 7 ч назад

Пользователь просит совета по использованию 8 GPU Tesla T4

Пользователь Reddit приобрел восемь серверных карт Tesla T4 у списанных VDI-серверов и ищет рекомендации, как использовать оставшиеся устройства. Одна карта уже работает в шасси DEG1, но для остальных нужен сценарий использования или стратегия конфигурации.