Все статьи
media r/LocalLLaMA · 4 ч назад

Рассмотрите постобучение вместо бенчмарков для нового оборудования

Автор утверждает, что приобретение нового оборудования следует использовать для контролируемой тонкой настройки (SFT) и усиленной тонкой настройки (RFT), а не для стандартного бенчмаркинга моделей. Этот подход предлагает жизнеспособный путь к монетизации за счет использования открытых моделей, особенно по мере того, как проприетарные API становятся менее доступными или более дорогими.

blog Simon Willison · 4 ч назад

Зрелищный гипотетический инцидент от Эндрю Несбита

Эндрю Несбит опубликовал спекулятивный отчет об инциденте, описывающий сценарий, в котором два агента ИИ-рецензирования от конкурирующих поставщиков попадают в цикл разногласий относительно безопасности пакета 'foxhole-lz4'.

media r/LocalLLaMA · 4 ч назад

Потоковая передача медицинского STT, работающая локально на MacBook

Разработчик создал потоковую модель преобразования медицинской речи в текст, которая работает полностью на устройстве, продемонстрированную с помощью MLX на MacBook. В настоящее время проект проходит дополнительные оценки, а открытый вес планируется выпустить на следующей неделе.

media r/LocalLLaMA · 4 ч назад

Рецензия на книгу «Доменно-специфичные малые языковые модели» Гульельмо Иоддзиа

В данной рецензии оценивается книга Гульельмо Иоддзиа «Доменно-специфичные малые языковые модели», в которой предлагается сдвиг парадигмы от универсальных больших языковых моделей к специализированным, дообученным малым языковым моделям (SLM). Рецензент утверждает, что SLM обеспечивают лучший контроль, прозрачность и экономическую эффективность для узких задач по сравнению с хайпом вокруг искусственного общего интеллекта.

media r/LocalLLaMA · 4 ч назад

Пайплайн Distill-on-idle для помощника с памятью на устройстве с использованием моделей 4B

В статье описывается инженерный подход к созданию локального ИИ-ассистента, который преобразует сырые скриншоты и расшифровки встреч в данные, доступные для запросов, используя только модели, эффективно работающие на ноутбуках. Система использует фреймворк Apple Vision для OCR, дистилляцию во время простоя модели Gemma 4B и гибридный поиск для избежания узких мест производительности.

blog Simon Willison · 4 ч назад

OpenAI демонстрирует серию GPT-5.6 с моделями Sol, Terra и Luna

OpenAI запустила ограниченный предпросмотр серии моделей GPT-5.6, представив три различных варианта: Sol в качестве флагмана, Terra для сбалансированной повседневной работы и Luna для быстрых и доступных задач. Компания планирует сделать эти модели общедоступными в ближайшие недели после этого начального этапа с доверенными партнерами.

media r/LocalLLaMA · 4 ч назад

Пользователь просит совета по использованию 8 GPU Tesla T4

Пользователь Reddit приобрел восемь серверных карт Tesla T4 у списанных VDI-серверов и ищет рекомендации, как использовать оставшиеся устройства. Одна карта уже работает в шасси DEG1, но для остальных нужен сценарий использования или стратегия конфигурации.

media r/LocalLLaMA · 5 ч назад

Открытие исходного кода инструмента для оценки VLM на ваших собственных видео с отслеживаемыми запусками

Авторы открыли исходный код инструмента для оценки моделей «зрение-язык» (VLM), который позволяет пользователям тестировать модели на своих собственных видеоданных с полной воспроизводимостью благодаря отслеживаемым запускам. Этот инструмент связывает каждый результат с его конкретным входными данными и конфигурацией, обеспечивая точную оценку точности, задержки и стоимости.

media r/LocalLLaMA · 5 ч назад

Обсуждение на Reddit: Локальные ИИ-рабочие процессы

Пост в сообществе r/LocalLLaMA просит пользователей поделиться локальными ИИ-рабочими процессами, которые значительно улучшили их продуктивность или полезность. Автор специально приглашает предложения по RAG, MCP, агентам для программирования, организации промптов, индексации документов и автоматизации.

media r/LocalLLaMA · 5 ч назад

Пользователь спрашивает, стоит ли купить один RTX Pro 6000 или два DGX Sparks для локальной разработки ИИ

Пользователь Reddit ищет рекомендации по оборудованию для запуска нескольких моделей малого и среднего размера локально для задач парсинга данных, извлечения информации и рассуждений. Пользователь намерен использовать эту конфигурацию для построения моделей, тестирования, создания LoRA и дистилляции, оставляя крупные облачные модели, такие как Opus, для сложных задач.

media r/LocalLLaMA · 5 ч назад

Пользователь Reddit предлагает объединить RTX 5080 и 4060 для локального вывода LLM

Пользователь сообщества r/LocalLLaMA рассматривает возможность обновления оборудования, чтобы повысить скорость и возможности вывода моделей Qwen, объединив будущую RTX 5080 со своей текущей RTX 4060. Пользователь стремится достичь скорости не менее 20-40 токенов в секунду при запуске моделей Qwen 27B, используя объединенные 24 ГБ VRAM с помощью разделения тензоров или слоев в llama.cpp или vLLm. Он оценивает эту асимметричную конфигурацию с двумя GPU по сравнению с другими вариантами, такими как AMD R9700 AI Pro или 7900XTX, приводя данные бенчмарков, которые указывают на ограниченный прирост производительности карт AMD относительно их стоимости.

media r/LocalLLaMA · 6 ч назад

Оптимизация llama.cpp + Qwen 27B на RTX PRO 6000 Blackwell для кодовых агентов

Пользователь сообщает о запуске Qwen3.6 27B MTP с llama.cpp на рабочей станции RTX PRO 6000 Blackwell, чтобы снизить зависимость от Claude, отмечая, что модель сопоставима с Sonnet, но страдает от проблем со стабильностью во время кодовых сессий.

media r/LocalLLaMA · 6 ч назад

KLD имеет недостатки при аблитерации

Пользователь Reddit утверждает, что расхождение Кульбака-Лейблера (KL) является ненадежной метрикой для измерения разницы между аблитерированной моделью и ее базовой версией. Автор отмечает, что KL можно представить множеством способов, она полностью зависит от оценочных промптов и часто манипулируется через first-token KL, чтобы сделать модели более привлекательными.