Все статьи
media r/LocalLLaMA · 6 ч назад

JetSpec: Спекулятивное декодирование с параллельным черновым построением дерева обеспечивает ускорение вывода LLM до 9.64x без потерь

JetSpec представляет метод спекулятивного декодирования под названием каузальное параллельное черновое построение дерева, который совместно оптимизирует стоимость и качество черновика для снижения задержки генерации LLM.

media r/LocalLLaMA · 6 ч назад

Сброс энергопотребления NVIDIA RTX 3090 в режиме ожидания

Пользователь сообщает, что при версии драйвера 595.71.05 две карты RTX 3090 ранее могли снижать потребление до 13-15 Вт в простое, но одна карта теперь застряла на уровне 24-30 Вт при нулевой активности и выключенных вентиляторах.

media r/LocalLLaMA · 6 ч назад

Цены на видеокарты сумасшедшие, стоит ли покупать вторую карту?

Пользователь r/LocalLLaMA рассматривает возможность добавления второй GPU в свою систему для локального вывода LLM, но его останавливает резкий рост цен на карты AMD Radeon RX 7900 XTX и XT. Автор поста отмечает, что новые цены на RX 7900 XTX выросли до 1200€, подержанные экземпляры стоят около 900€, а бюджетная RX 7900 XT начинается от 700€.

media r/LocalLLaMA · 6 ч назад

Обработка изоляции на уровне агентов и жизненного цикла окружения в библиотеке оркестрации

Автор подробно описывает архитектуру библиотеки оркестрации, независимой от фреймворка (harness-agnostic), уделяя особое внимание управлению окружением агентов через различные абстракции рабочего пространства и времени выполнения. Система определяет четыре последовательных состояния — unprovisioned, provisioned, started и retired — для контроля жизненного цикла каждого экземпляра агента.

media r/LocalLLaMA · 6 ч назад

Qwen 3.6 27b GLM 5.2 fine-tune?

Пользователь Reddit задаётся вопросом об отсутствии модели Qwen 3.6 27B, дообученной с помощью GLM 5.2, отмечая, что обе модели имеют открытые веса, а GLM известен своими способностями к рассуждению. Автор поста предполагает, что отсутствие такого дообучения может быть связано с недавним выходом GLM 5.2 или общим отсутствием интереса сообщества к объединению этих конкретных моделей.

github llama.cpp · 6 ч назад

Выпуск llama.cpp b9825: исправление Vulkan и кроссплатформенные бинарники

Проект llama.cpp выпустил версию b9825, которая включает исправление оператора шага Vulkan при обработке нулевых входных данных. Это обновление предоставляет предварительно собранные бинарные файлы для macOS, Linux, Windows, Android и openEuler для различных аппаратных бэкендов.

github llama.cpp · 6 ч назад

Релиз llama.cpp b9826 с исправлением нормализации SYCL

Проект llama.cpp опубликовал релиз b9826, включающий исправление неудачных случаев модульных тестов, связанных с функцией нормализации в SYCL. Это обновление предоставляет предварительно собранные двоичные файлы и фреймворки для нескольких платформ и аппаратных ускорителей.

media Hugging Face Forums · 7 ч назад

Чек-лист, который заставляет ИИ остановиться

В этой статье утверждается, что агенты ИИ часто выполняют действия на основе неполных инструкций, догадываясь о недостающей информации; эта проблема называется «сбоем подтверждения до выполнения». Предлагается структура с принудительным выполнением во время выполнения, требующая проверки известных и неизвестных данных перед любым действием.

github llama.cpp · 7 ч назад

Выпуск llama.cpp b9822 с бинарными файлами для macOS, Linux и Windows

Проект llama.cpp опубликовал выпуск b9822, предоставляющий предварительно собранные бинарные файлы для macOS, iOS, Linux, Android и Windows. Это обновление включает исправление для опции --no-common в тесте chat-template и распределяет сборки по различным аппаратным архитектурам и ускорителям.

github llama.cpp · 8 ч назад

Выпуск llama.cpp b9823 добавляет OpenVINO для Windows и обновляет бинарные файлы

Проект llama.cpp выпустил версию b9823, предоставляя предварительно собранные бинарные файлы для платформ macOS, iOS, Linux, Android, Windows и openEuler. Ключевым изменением в этом выпуске является добавление сборки OpenVINO для Windows в конвейер проверки релизов.

github llama.cpp · 8 ч назад

Выпуск llama.cpp b9824: переименование бинарников и новые сборки

Проект llama.cpp выпустил версию b9824, которая включает улучшения в бинарных файлах rpc-server и export-graph-ops. Инструмент `export-graph-ops` переименован для соответствия соглашениям об именах тестов, а `rpc-server` переименован в `ggml-rpc-server`, чтобы избежать конфликтов в системных каталогах.

media Hugging Face Forums · 14 ч назад

Пользователь запрашивает удаление аккаунта с порнографией, жестокостью и нацистским контентом

Пользователь на форумах Hugging Face просит удалить аккаунт 'cerealpotatochipssea' за публикацию запрещённого контента. В сообщении утверждается, что аккаунт распространял материалы 18+, сцены жестокости и изображения нацистской тематики.

lab OpenAI News · 19 ч назад

OpenAI демонстрирует модели GPT-5.6 Sol, Terra и Luna

OpenAI запустила ограниченный предпросмотр серии GPT-5.6, представив три новые модели: Sol как флагманскую, Terra для сбалансированной повседневной работы и Luna для быстрых и доступных задач. Компания планирует сделать эти модели общедоступными в ближайшие недели после этого начального этапа с доверенными партнерами.

github llama.cpp · 19 ч назад

Выпуск llama.cpp b9821: флаги CLI и мультиплатформенные бинарники

Проект llama.cpp выпустил версию b9821, которая вносит обновления в интерфейс командной строки, позволяя пользователям вызывать флаги --version, --licenses и --help. Этот выпуск предоставляет полный набор предварительно собранных бинарных файлов для macOS, Linux, Android, Windows и openEuler на различных аппаратных ускорителях.

media Hugging Face Forums · 20 ч назад

Задача: Создать систему RAG для исчезающего разговорного языка

Вакансия ищет опытного инженера по NLP или LLM для разработки первого движка локализации на основе Retrieval-Augmented Generation (RAG) для малообеспеченного языка, на котором говорят в Южной Америке. Проект использует проприетарный корпус педагогического контента и словарных данных, разработанный за четыре года.