Code generation
media r/LocalLLaMA · 6 д назад

7900XTX 24GB VRAM Runs Qwen 3.6 27B с 131k Context

Пользователь сообщает о успешном запуске модели Qwen 3.6 27B с квантованием Q6K+MTP и длиной контекста 131k на видеокарте 7900XTX с 24 ГБ VRAM. Это достигается с помощью квантования kvcache (Q5_0/Q4_0), что снижает использование VRAM на 12% по сравнению с Q8, позволяя модели работать со скоростью 55-60 токенов в секунду при использовании специальных флагов компиляции и аргументов llama.cpp.

media r/LocalLLaMA · 6 д назад

GLM 5.2 достигает 98% максимальной интеллекта с менее чем половиной токенов

Согласно техническому отчету z_ai, модель GLM 5.2 демонстрирует 98% максимального интеллекта в задачах программирования, используя менее половины своего общего бюджета токенов. Эффективность логического мышления модели значительно улучшилась: количество токенов увеличилось с 16,7 к до 36,7 к при переходе от GLM 5.1 к GLM 5.2, хотя настройки высокого уровня могут негативно сказаться на производительности локальных аппаратных средств.

media r/LocalLLaMA · 6 д назад

AMD Будущие GPU для развертывания LLM

AMD объявил о новых GPU, которые могут поддерживать локальные развертывания больших языковых моделей (LLM). Эти GPU разработаны с повышенной пропускной способностью памяти и вычислительными возможностями, что делает их подходящими для эффективного выполнения инференса и обучения больших языковых моделей в отдельных локальных системах.

media r/LocalLLaMA · 6 д назад

Локальная ИИ для локальных файлов офиса

Пользователь Reddit спрашивает, какой ИИ-агент лучше всего подходит для обработки локальных файлов офиса, таких как Excel, PDF, Word и JSON. В посте приводятся запросы к пользовательским опыту и реализованным рабочим процессам для таких задач.

media r/LocalLLaMA · 6 д назад

Проблема вызова инструментов в открытом Qwen3.6 27B 8K

Пользователи сообщают, что модель Qwen3.6 27B 8K иногда останавливается при генерации вызова инструмента, особенно когда пользователь отходит. Проблема решается тем, что инструментальный вызов вручную вставляется обратно в промпт, что позволяет модели продолжить выполнение. Вызов инструмента включает bash-функцию для поиска проходящих тестов в кодовой базе.

media r/LocalLLaMA · 6 д назад

Какая лучшая книга для изучения математики в области машинного обучения и глубокого обучения?

Пользователь просит рекомендации по книгам, чтобы сформировать прочную математическую основу для понимания и внесения вклада в области машинного обучения и глубокого обучения, особенно в связи с их интересом к архитектурам искусственного интеллекта и больших языковых моделей. Они признают, что интуитивное понимание ограничено без должной математической подготовки, и ищут структурированные ресурсы, чтобы дополнить свой текущий путь обучения через каналы, такие как 3b1b.

media r/LocalLLaMA · 6 д назад

Локальный агент на 4090 - поиск настроек LM Studio

Пользователь сообщает о медленной генерации токенов при запуске локального агента на видеокарте 4090 с 24 ГБ ОЗУ, несмотря на настройку параметров контекста и батчинга. Он отмечает, что Gemma4 работает быстрее, но генерирует неверные токены, такие как </tool_call>, и ищет рекомендованные настройки и объяснения параметров, таких как top_p и top_k.

media r/LocalLLaMA · 6 д назад

SupraLabs выпустил supra-title-FFT-preview с 115K образцов

SupraLabs представил модель генерации чат-заголовков supra-title-FFT-preview, обученную на 115K образцов из отфильтрованного датасета, расширяя охват по сравнению с предыдущей моделью из 12K образцов. Модель использует полную настройку на LiquidAI/LFM2.5-350M-Base с точностью BF16 и предназначена для генерации заголовков чатов в однозадачном режиме, доступна через Hugging Face и поддерживает прямую загрузку или развертывание с помощью vLLM.

media r/LocalLLaMA · 6 д назад

Я протестировал 'Быстрый C++' Клауде. Он не был быстрее

Пользователь проверил заявленную реализацию 'Быстрого C++' Клауде и обнаружил, что она не превосходит стандартный C++ в тестах. В посте приведён ссылка на статью в Substack, в которой подробно описан процесс и результаты тестирования.

media r/LocalLLaMA · 6 д назад

Стоимость в $1800 GPU позволяет запустить Qwen3.6-27B с контекстом в 262K и скоростью 55 ток/с

Настройка, использующая четыре видеокарты 5060 Ti (итого $1800), обеспечивает скорость 55 токенов в секунду при использовании Qwen3.6-27B-FP8, поддерживая длину контекста 262K и кэш KV в формате bfloat16. Конфигурация использует P2P и FlashInfer, при этом результаты тестирования показывают пропускную способность 55,67 токенов на выход и процент принятия спекулятивного декодирования в 65,25%.

blog Simon Willison · 6 д назад

Сеан Линч о изоляции потоков аутентификации в MCP

Сеан Линч отмечает, что протокол контекста модели (MCP) обеспечивает важное преимущество за счёт изоляции потоков аутентификации за пределы контекстного окна агента. Он предлагает, что идеальная форма MCP может быть простым шлюзом аутентификации для API, что всё равно будет значительным улучшением.

media r/LocalLLaMA · 6 д назад

Помощь в запуске локального агента Hermes с использованием llama-cpp

Пользователь сообщает о проблемах при запуске локального агента AI Hermes на высокопроизводительной системе с использованием самокомпилированной версии llama-cpp. Настройка испытывает частое переработку кэша KV каждые 5 сообщений и медленное мышление, при этом агент постоянно останавливается, чтобы сообщить о прогрессе, вместо того чтобы продолжать работу автономно. Пользователь ищет руководство по тому, правильно ли настроены параметры llama-cpp, или какие настройки могут улучшить производительность агента и обеспечить стабильное мышление без прерываний.

media r/LocalLLaMA · 6 д назад

SupraLabs выпустил модель SupraVL-Nano-900k для обработки изображений и языка

SupraLabs представил модель SupraVL-Nano-900k, полностью прозрачную модель из 900 тысяч параметров, обученную с нуля на наборе Flickr8k. Модель включает в себя CNN-энкодер, декодер стиля GPT-2 и метод объединения с помощью префикса, все компоненты которой полностью документированы и разработаны с целью образовательной ясности.

media r/LocalLLaMA · 6 д назад

Как настроить оптимальные параметры llama.cpp для моделей gemma 4 на GPU от AMD

Пользователи, ищущие оптимальные настройки llama.cpp для моделей gemma 4 на GPU от AMD с 16 ГБ ОЗУ, спрашивают, необходима ли проба и ошибка. Они приводят стандартные настройки Google для температуры, top-p и top-k, но отмечают непостоянные результаты, что указывает на необходимость более целенаправленных рекомендаций, выходящих за рамки официальной документации.

media r/LocalLLaMA · 6 д назад

Как настроить поиск с помощью моделей ИИ

Пользователь спрашивает, как интегрировать модель Gemma 4 12B с возможностями поиска, используя самовыполняемые ИИ-модели. Он упоминает попытки использования openwebui, который имеет проблемы с поисковыми системами, такими как DDG, и ищет альтернативы, избегающие использования ключей API от Brave или Google.

media r/LocalLLaMA · 6 д назад

Комиссия выбирает консорциум EUROPA в качестве победителя конкурса Frontier AI Grande Challenge

Европейская комиссия выбрала консорциум EUROPA, возглавляемый Domyn, для разработки открытого фронтового ИИ-модели на всех 24 языках ЕС. Проект, запущенный в феврале 2026 года, направлен на создание модели с более чем 400 миллиардами параметров, демонстрирующей способность Европы строить передовые ИИ-системы на собственной инфраструктуре.

media r/LocalLLaMA · 6 д назад

Улучшение локальных моделей с помощью агента-консультанта на основе API

Пользователь спрашивает, может ли добавление мощного агента-консультанта на основе API, такого как GLM 5.2, улучшить локальные рабочие процессы, оптимизируя планы и процессы обучения. В посте рассматриваются потенциальные преимущества такого агента в улучшении производительности локальных моделей за счёт внешнего консультирования.

media r/LocalLLaMA · 6 д назад

Экономика ИИ начинает отдавать предпочтение открытым моделям

Последние выпуски ИИ-моделей показывают, что высококвалифицированные, недорогие модели всё чаще доминируют среди открытых моделей, таких как DeepSeek, Qwen, GLM, Kimi и MiniMax. Для большинства реальных применений разрыв в производительности между передовыми закрытыми моделями и сильными открытыми моделями сокращается быстрее, чем разрыв в стоимости, что делает открытое модели конкурентоспособными как с точки зрения возможностей, так и с точки зрения цены.

media Don't Worry About the Vase · 6 д назад

Claude Fable 5 и Mythos 5: Возможности

Anthropic выпустил Claude Fable 5, модель класса Mythos, утверждающую достижение передовых результатов в области программирования, научных исследований и работы с знаниями. Модель была быстро удалена американским правительством после сообщения о проникновении в систему, хотя Anthropic утверждает, что она теперь снова доступна, и Fable 5 демонстрирует исключительные возможности и более продуманный, осознанный стиль рассуждения по сравнению с предыдущими моделями.

media r/LocalLLaMA · 6 д назад

Eagle3 появился для Qwen

Модель спекулятивного декодирования Eagle3 теперь доступна в последней версии llama.cpp через --spec-type draft-eagle3. Её необходимо использовать вместе с драфтовым моделью, например, Ex0bit-Qwen3.6-27B-PRISM-EAGLE3-GGUF, и включать с помощью -md или --model-draft. Производительность сравнима с draft-mtp, хотя поддержка тензорной параллелизма отсутствует и использование VRAM выше.