Rust 0.0.14
Релиз версии Rust 0.0.14. Эта ранняя версия относится к начальной фазе разработки языка и включает в себя основные функции языка.
Релиз версии Rust 0.0.14. Эта ранняя версия относится к начальной фазе разработки языка и включает в себя основные функции языка.
Пользователь сообщает о проблемах при запуске локального агента AI Hermes на высокопроизводительной системе с использованием самокомпилированной версии llama-cpp. Настройка испытывает частое переработку кэша KV каждые 5 сообщений и медленное мышление, при этом агент постоянно останавливается, чтобы сообщить о прогрессе, вместо того чтобы продолжать работу автономно. Пользователь ищет руководство по тому, правильно ли настроены параметры llama-cpp, или какие настройки могут улучшить производительность агента и обеспечить стабильное мышление без прерываний.
Пользователь сообщает о достижении только 60 токенов в секунду в кратковременных всплесках и средней скорости 40-45 TPS при запуске модели Qwen 3.6 27B с квантованием Q8_0 на двух видеокартах GeForce 3090, соединенных через NVLink. Настройка включает Ubuntu 24.04, Ryzen 7950x3D и 64 ГБ DDR5, с видеовыводом, подключенным через eGPU.
LLaMA.cpp выпускает версию b9729 с бинарниками для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах. В релизе включены поддержка CPU, Vulkan, OpenVINO, SYCL и ROCm, а также новый пакет интерфейса. Удалены внутренние ссылки на 'webui'.
SupraLabs представил модель SupraVL-Nano-900k, полностью прозрачную модель из 900 тысяч параметров, обученную с нуля на наборе Flickr8k. Модель включает в себя CNN-энкодер, декодер стиля GPT-2 и метод объединения с помощью префикса, все компоненты которой полностью документированы и разработаны с целью образовательной ясности.
Пользователи, ищущие оптимальные настройки llama.cpp для моделей gemma 4 на GPU от AMD с 16 ГБ ОЗУ, спрашивают, необходима ли проба и ошибка. Они приводят стандартные настройки Google для температуры, top-p и top-k, но отмечают непостоянные результаты, что указывает на необходимость более целенаправленных рекомендаций, выходящих за рамки официальной документации.
Проблема с производительностью при длительных контекстах на AMD Radeon AI PRO R9700 (RDNA4) была решена в vLLM 0.22.1 путем включения AITER Unified Attention. Исправление включает ослабление гейта CDNA для включения RDNA4, отключение других реализаций внимания и использование KV-кэша в формате bf16, что обеспечивает значительное ускорение при всех длинах контекста. Использование FP8 на этом оборудовании неэффективно, а нативный контекст модели в размере 262K полностью достижим при использовании bf16, обеспечивая ~2.9× параллелизм без необходимости использования FP8.
Пользователь спрашивает, как интегрировать модель Gemma 4 12B с возможностями поиска, используя самовыполняемые ИИ-модели. Он упоминает попытки использования openwebui, который имеет проблемы с поисковыми системами, такими как DDG, и ищет альтернативы, избегающие использования ключей API от Brave или Google.
Версия LLaMA.cpp b9728 вводит поддержку строк комментариев в конфигурации --api-key-file. В релизе представлены предварительно скомпилированные бинарные файлы для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и вариантах аппаратного ускорения, включая Vulkan, CUDA, OpenVINO и SYCL.
Модели GLM-5.2-REAP50-GGUF доступны на Hugging Face, предлагают два квантованных варианта: Q3_K_M (182 ГБ) и Q2_K (139 ГБ). Модели сравниваются в посте на Reddit с Qwen 3.6 27b, хотя прямой анализ производительности не предоставлен.
Пользователь спрашивает, можно ли использовать SSD для расширения памяти при запуске больших моделей ИИ на Mac Mini с процессором M4 и 24 ГБ единых средств памяти. Они отмечают, что хотя GPT-120B запускается успешно, он занимает 50 ГБ объема SWAP, и SSD на 330 ГБ почти не используется для KV-слотов и файлов GGUF, несмотря на ожидание, что mmap позволит расширять память SSD.
Европейская комиссия выбрала консорциум EUROPA, возглавляемый Domyn, для разработки открытого фронтового ИИ-модели на всех 24 языках ЕС. Проект, запущенный в феврале 2026 года, направлен на создание модели с более чем 400 миллиардами параметров, демонстрирующей способность Европы строить передовые ИИ-системы на собственной инфраструктуре.
Пользователь спрашивает, может ли добавление мощного агента-консультанта на основе API, такого как GLM 5.2, улучшить локальные рабочие процессы, оптимизируя планы и процессы обучения. В посте рассматриваются потенциальные преимущества такого агента в улучшении производительности локальных моделей за счёт внешнего консультирования.
Версия llama.cpp b9726 вводит новый аргумент --agent и удаляет избыточную совместимость названий webui. В релизе представлены предварительно скомпилированные бинарники для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и вариантах ускорения аппаратного обеспечения.
Версия llama.cpp b9727 обновляет cpp-httplib до версии 0-48-0. Релиз включает бинарные файлы для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и вариантах ускорения аппаратного обеспечения, включая Vulkan, CUDA, OpenVINO и SYCL.
Последние выпуски ИИ-моделей показывают, что высококвалифицированные, недорогие модели всё чаще доминируют среди открытых моделей, таких как DeepSeek, Qwen, GLM, Kimi и MiniMax. Для большинства реальных применений разрыв в производительности между передовыми закрытыми моделями и сильными открытыми моделями сокращается быстрее, чем разрыв в стоимости, что делает открытое модели конкурентоспособными как с точки зрения возможностей, так и с точки зрения цены.
Полная английская версия LQ50-24 была опубликована с использованием Google Translate. Пост был представлен пользователем /u/MundanePercentage674 в сообществе LocalLLaMA на Reddit.
Anthropic выпустил Claude Fable 5, модель класса Mythos, утверждающую достижение передовых результатов в области программирования, научных исследований и работы с знаниями. Модель была быстро удалена американским правительством после сообщения о проникновении в систему, хотя Anthropic утверждает, что она теперь снова доступна, и Fable 5 демонстрирует исключительные возможности и более продуманный, осознанный стиль рассуждения по сравнению с предыдущими моделями.
Оценка LLM все чаще воспринимается как маркетинг, а не объективная оценка. Пользователи задают вопросы о том, какие оценки действительно значимы для локальных моделей, а не поверхностные утверждения на основе баллов.
Проект Docker добавил поддержку сборки элемента интерфейса. В этом обновлении также включено использование существующего APP_VERSION в настройках контейнера.