Обновлено подсказка о простоях потока в v2.1.185
Теперь подсказка о простоях потока отображает "Ожидание ответа от API · повтор попытки через …" и активируется спустя 20 секунд без ответа, заменяя предыдущее сообщение и задержку.
Теперь подсказка о простоях потока отображает "Ожидание ответа от API · повтор попытки через …" и активируется спустя 20 секунд без ответа, заменяя предыдущее сообщение и задержку.
Пользователь Reddit сообщил, что шесть месяцев назад отказался от предложения в размере 8165 долларов за видеокарту RTX 6000 PRO. Тот же поставщик сейчас предлагает ту же видеокарту по цене 11575 долларов, что заставляет пользователя отразить на своём решении с точки зрения перспективы.
Пользователи, отчитывающие скорости локальной инференции GLM 5.2 с использованием llama.cpp на 6x RTX 3090 с 128 ГБ DDR5 и i7-13700K, достигают скорости 7,8 токенов в секунду при размере контекста 90K с использованием квантования Q8_0. Обработка промпта происходит со скоростью примерно 40 токенов в секунду.
llama.cpp version b9741 вводит новые бинарники для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах. В релизе предусмотрена поддержка Vulkan, CUDA 12.4 и 13.3, OpenVINO, SYCL и ROCm, а также обновленные версии для iOS и Ubuntu.
Я написал бесплатную серию из 15 частей, в которой подробно описывается внутренняя структура LLM, используя Gemma 4 12B в качестве основного примера. Каждая часть охватывает технические аспекты от токенизации до предоставления сервиса, с реальными математическими вычислениями, формами тензоров и ограничениями аппаратного обеспечения. Серия включает в себя дополнительный разбор vLLM и полностью доступна без платных стен или требований на электронную почту.
Расширение Qwen Code Companion для VSCode теперь доступно в магазине и открыто для использования по адресу https://github.com/QwenLM/qwen-code. Пользователи отмечают, что оно работает хорошо с моделями, размещёнными в LM Studio, и превосходит другие локальные инструменты для LLM, такие как continue, kilo, cline и roo, при минимальной настройке.
Пользователь утверждает, что Gemma 4 26b a4b является лучшей моделью, которую он пробовал для изучения языка и научных запросов, превосходя Qwen 3.5/3.6 в этих областях. В посте отмечается разрыв в доступных малых моделях MOE в диапазоне от 20b до 30b, что указывает на необходимость расширения вариантов за пределами задач кодирования и агентских действий.
Пользователь имеет 24B токен-кредитов из конкурса токен-плана Xiaomi, стоимостью $50, но полученных бесплатно. Он сообщает о высоком потреблении токенов при использовании, ограниченной поддержке инструментов и теперь обеспокоен тем, что кредиты будут потеряны из-за истечения срока в четыре дня. Модель похвалена за 90% ставку кэша и 99% снижение цены при кэшировании, пользователь отмечает, что она хорошо справляется с задачами по программированию и планированию.
Патч устраняет случайные сбои в тесте test-args-parser на Windows, изменяя перекрытие argv так, чтобы применяться только при совпадении argc, предотвращая перезапись программных аргументов. Это устраняет сбой быстрого отказа в рабочем процессе OpenVINO на Windows, при этом сохраняя обработку UTF-8 для реальных исполняемых файлов.
Проект под названием Jaz представляет доску, где каждый квадрат функционирует как независимый агент, отвечающий за поддержание собственного состояния. Система является открытой и доступна на GitHub, с живой демонстрацией по адресу jaz.chat, требующей агента для программирования, такого как Claude Code или Codex.
Локально работающая глубокая нейронная сеть может превращать любое изображение в игровую сессию, используя небольшую модель, похожую на трансформер, обученную с нуля. Модель, работающая на RTX 5090, генерирует игровые последовательности автокоррекционно с реальным вводом клавиатуры, хотя в настоящее время она страдает от плохой динамики и проблем с контекстом.
Пользователь выражает разочарование по поводу цен Nvidia, купив двух видеокарт R9700, несмотря на текущие цены на RTX 5090 в размере 7000 долларов и на RTX 6000 Pro в размере 13500 долларов. Он спрашивает, не было ли ошибкой покупка R9700 в свете значительного роста цен на более новые видеокарты Nvidia.
Пользователь просит совета по использованию двух видеокарт NVIDIA RTX 3090. В посте присутствует изображение и ссылки на оригинальное сообщение в Reddit и комментарии.
Пользователи теперь могут конвертировать и запускать квантованные модели EXL3 на Mac с процессором Apple Silicon и объёмом памяти 64 ГБ и более. Проверки показывают, что модели, такие как MiniCPM5 и Qwen3.6-27B, достигают производительности, сравнимой с или немного ниже производительности при конвертации на картах RTX, при этом EXL3 обеспечивает более высокое качество квантования по сравнению с MLX.
LLaMA.cpp версия b9739 добавляет поддержку Windows ARM64 с использованием OpenCL Adreno. В этом выпуске представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и API, включая Vulkan, CUDA, OpenVINO и SYCL.
Анализ затрат показывает, что хостинг diffusiongemma при различных уровнях токенов пользователей приводит к ежемесячным расходам на пользователя от 1,7 евро до 122,8 евро. Исследование показывает, что использование агентного ИИ экономически нецелесообразно для совместного хостинга, хотя расходы могут снизиться при появлении новых GPU или ASIC и сокращении срока износа GPU.
Прототип демонстрирует, как два документа Word обмениваются содержимым с помощью локальных LLMs, с итеративными взаимодействиями на нескольких шагах. Потенциальные практические примеры включают итеративное взаимодействие чернового документа и критического документа, или совместную работу спецификации и реализации документа, хотя реализуемость таких рабочих процессов остаётся неопределённой.
llama.cpp version b9738 исправляет прокси CORS для предотвращения передачи аутентификационных заголовков. В выпуске представлены бинарные сборки для macOS, Linux, Android, Windows и openEuler на разных архитектурах и вариантах ускорения, включая Vulkan, CUDA, OpenVINO и SYCL.
Пользователь спрашивает, какой из моделей — Qwen3.6-27B при точности BF16 или Step3.7 с квантованием IQ4_XS — будет принимать более осознанные, автономные решения с меньшей необходимостью в руководстве человека. Вопрос сравнивает плотную модель высокой точности с более крупной моделью на основе MoE при низкой точности, указывая на компромиссы в памяти и производительности.
z.AI, занимающий позицию второго, публично хвалит первый открытый модель. В посте отмечается восхищение возможностями модели, подчеркивается её производительность и вклад в сообщество.