Все статьи
media r/LocalLLaMA · 5 ч назад

Обновил бюджетную сборку до мульти-GPU для инференса

Пользователь обновил бюджетный ПК, добавив две RTX 3090 и одну Intel Arc A770, чтобы протестировать производительность мульти-GPU инференса с помощью llama.cpp. Основной вывод заключается в том, что бэкенд Vulkan вызывает чрезмерные накладные расходы на память по сравнению с CUDA, что делает его непригодным для смешанных конфигураций от разных производителей.

media r/LocalLLaMA · 5 ч назад

vulkan: сделать TP жизнеспособным от pwilkin · Pull Request #25051

Pull request, отправленный в репозиторий ggml-org/llama.cpp, направлен на повышение жизнеспособности тензорного параллелизма Vulkan. Автор, идентифицированный как Piotr, реализовал изменения, призванные сделать эту функцию более удобной для использования.

media r/LocalLLaMA · 5 ч назад

Разработчик создаёт локально-ориентированный фреймворк для LLM и запрашивает обратную связь от сообщества

Разработчик с 45-летним опытом в разработке программного обеспечения завершает создание локально-ориентированного фреймворка для запуска локальных моделей и моделей через API, включающего логику работы с несколькими агентами. Автор потратил шесть месяцев на разработку инструментов для улучшения рабочего процесса с локальными LLM и теперь спрашивает сообщество, какие функции могли бы улучшить их опыт.

media r/LocalLLaMA · 5 ч назад

Почему люди продолжают инвестировать в Intel в сфере ИИ?

Статья ставит под сомнение обоснование классификации Wall Street акций Intel как инвестиций в «лопатки и кирки» для ИИ, задаваясь вопросом, кто на самом деле покупает оборудование Intel для центров обработки данных с ИИ.

media r/LocalLLaMA · 6 ч назад

Пользователь Reddit ищет советы по многомодельным бэкендам и переключению конфигураций

Пользователь Reddit планирует развернуть машину с несколькими GPU для обслуживания моделей Coding и Hermes, ища решения, которые позволяют гибко менять конфигурации без ручного вмешательства.

media r/LocalLLaMA · 6 ч назад

Рассмотрите постобучение вместо бенчмарков для нового оборудования

Автор утверждает, что приобретение нового оборудования следует использовать для контролируемой тонкой настройки (SFT) и усиленной тонкой настройки (RFT), а не для стандартного бенчмаркинга моделей. Этот подход предлагает жизнеспособный путь к монетизации за счет использования открытых моделей, особенно по мере того, как проприетарные API становятся менее доступными или более дорогими.

blog Simon Willison · 6 ч назад

Зрелищный гипотетический инцидент от Эндрю Несбита

Эндрю Несбит опубликовал спекулятивный отчет об инциденте, описывающий сценарий, в котором два агента ИИ-рецензирования от конкурирующих поставщиков попадают в цикл разногласий относительно безопасности пакета 'foxhole-lz4'.

media r/LocalLLaMA · 6 ч назад

Потоковая передача медицинского STT, работающая локально на MacBook

Разработчик создал потоковую модель преобразования медицинской речи в текст, которая работает полностью на устройстве, продемонстрированную с помощью MLX на MacBook. В настоящее время проект проходит дополнительные оценки, а открытый вес планируется выпустить на следующей неделе.

media r/LocalLLaMA · 6 ч назад

Рецензия на книгу «Доменно-специфичные малые языковые модели» Гульельмо Иоддзиа

В данной рецензии оценивается книга Гульельмо Иоддзиа «Доменно-специфичные малые языковые модели», в которой предлагается сдвиг парадигмы от универсальных больших языковых моделей к специализированным, дообученным малым языковым моделям (SLM). Рецензент утверждает, что SLM обеспечивают лучший контроль, прозрачность и экономическую эффективность для узких задач по сравнению с хайпом вокруг искусственного общего интеллекта.

media r/LocalLLaMA · 6 ч назад

Пайплайн Distill-on-idle для помощника с памятью на устройстве с использованием моделей 4B

В статье описывается инженерный подход к созданию локального ИИ-ассистента, который преобразует сырые скриншоты и расшифровки встреч в данные, доступные для запросов, используя только модели, эффективно работающие на ноутбуках. Система использует фреймворк Apple Vision для OCR, дистилляцию во время простоя модели Gemma 4B и гибридный поиск для избежания узких мест производительности.

blog Simon Willison · 6 ч назад

OpenAI демонстрирует серию GPT-5.6 с моделями Sol, Terra и Luna

OpenAI запустила ограниченный предпросмотр серии моделей GPT-5.6, представив три различных варианта: Sol в качестве флагмана, Terra для сбалансированной повседневной работы и Luna для быстрых и доступных задач. Компания планирует сделать эти модели общедоступными в ближайшие недели после этого начального этапа с доверенными партнерами.

media r/LocalLLaMA · 6 ч назад

Пользователь просит совета по использованию 8 GPU Tesla T4

Пользователь Reddit приобрел восемь серверных карт Tesla T4 у списанных VDI-серверов и ищет рекомендации, как использовать оставшиеся устройства. Одна карта уже работает в шасси DEG1, но для остальных нужен сценарий использования или стратегия конфигурации.

media r/LocalLLaMA · 7 ч назад

Открытие исходного кода инструмента для оценки VLM на ваших собственных видео с отслеживаемыми запусками

Авторы открыли исходный код инструмента для оценки моделей «зрение-язык» (VLM), который позволяет пользователям тестировать модели на своих собственных видеоданных с полной воспроизводимостью благодаря отслеживаемым запускам. Этот инструмент связывает каждый результат с его конкретным входными данными и конфигурацией, обеспечивая точную оценку точности, задержки и стоимости.

media r/LocalLLaMA · 7 ч назад

Обсуждение на Reddit: Локальные ИИ-рабочие процессы

Пост в сообществе r/LocalLLaMA просит пользователей поделиться локальными ИИ-рабочими процессами, которые значительно улучшили их продуктивность или полезность. Автор специально приглашает предложения по RAG, MCP, агентам для программирования, организации промптов, индексации документов и автоматизации.

media r/LocalLLaMA · 7 ч назад

Пользователь спрашивает, стоит ли купить один RTX Pro 6000 или два DGX Sparks для локальной разработки ИИ

Пользователь Reddit ищет рекомендации по оборудованию для запуска нескольких моделей малого и среднего размера локально для задач парсинга данных, извлечения информации и рассуждений. Пользователь намерен использовать эту конфигурацию для построения моделей, тестирования, создания LoRA и дистилляции, оставляя крупные облачные модели, такие как Opus, для сложных задач.