Inference efficiency — korshunov.ai

Inference efficiency Страница 1 / 9

Переиспользование старого узла с несколькими GPU для локальной инференции

Узел оснащен 8 NVIDIA Quadro RTX 6000 GPU с 192 ГБ ОЗУ и 512 ГБ ОЗУ, что позволяет выполнять масштабную локальную инференцию моделей ИИ. Модели, такие как LLaMA-3 или Mistral с 8–13 миллиардами параметров, могут здесь эффективно работать, обеспечивая более быструю, приватную и низкозадержку производительность по сравнению с настройками на одном GPU, что делает его ценным для внутреннего использования.

media r/LocalLLaMA · 6 д назад

Калибровка 2-битных GGUF для задач агентного программирования

2-битные квантованные версии Qwopus3.6-27B-Coder, калиброванные на реальных журналах агентного программирования, достигают 63% успешного прохождения на SWE-rebench. Версия IQ2_M превосходит некалиброванные версии и соперничает с Q5_K_M по показателю успешного прохождения, несмотря на то, что она вдвое меньше, с улучшенной устойчивостью к циклам и более быстрой декодировкой благодаря объединенному MTP.

media Latent Space · 6 д назад

Почему масштабирование ИИ — это проблема систем, а не просто соревнование по GPU

Диалог о масштабировании ИИ игнорирует то, что максимизация использования FLOP модели имеет большее значение, чем покупка дополнительных GPU. Организации, такие как xAI, работают на уровне ниже 10% MFU, в то время как исторические модели достигали 21% до 70% MFU, что указывает на системные недостатки в планировании, сетевом взаимодействии и управлении кластерами. Анджей Мидха утверждает, что инфраструктура ИИ должна эволюционировать в эффективные, сбалансированные и ответственные системы, и появляется новая дисциплина — "максимизация выхода" — для передовых систем ИИ.

media r/LocalLLaMA · 6 д назад

LFM2.5-Embedding-35-0M и LFM2.5-ColBERT-350M были выпущены

LFM2.5-Embedding-350M — это плотный двойной кодировщик, обеспечивающий быструю мультиязычную ретриев-операцию с одним вектором на документ, достигающий наилучшей точности для своего размера и скорость инференса, сравнимой с более малыми моделями. LFM2.5-ColBERT-350M — это ретриев-модель с поздним взаимодействием, обеспечивающий наилучшую мультиязычную точность, позволяющий проводить межязычную ретриев-операцию, храня один вектор на токен и поддерживая ретриев на нескольких языках с высокой точностью. Оба моделя являются разработанными как прямые замены для существующих пайплайнов RAG.

media r/LocalLLaMA · 6 д назад

Снижение затрат на токены в реальных условиях за счёт headroom, rtk и caveman

Реальный анализ нагрузки показывает, что headroom, rtk и caveman снижают затраты на токены на 2,8%, 0,5% и 0.4% соответственно, что в сумме составляет 3,7% от базовых расходов. Однако сокращения ограничены разнообразием нагрузки, поскольку большая часть трафика состоит из простого текста или исходного кода, а инструменты сжимают только структурированные выводы. Большинство сокращений происходит в наиболее дешёвом потоке токенов — при чтении кэша, при этом инструменты не влияют на кэширование промптов или затраты на выводы, и существуют пробелы в охвате, особенно в отношении rtk.

github llama.cpp · 6 д назад

llama.cpp Release b9703: Обновления и бинарные загрузки

Версия llama.cpp b9703 включает переработку обработки предустановок сервера, удаление поддержки удаленных предустановок HF и устаревших функций. В релизе представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler на разных архитектурах и вариантах ускорения, включая Vulkan, CUDA, OpenVINO и SYCL.

github llama.cpp · 6 д назад

llama.cpp release b9704: fixes invalid grammar handling and adds new binaries

llama.cpp version b9704 теперь возвращает HTTP 400 для недопустимой грамматики вместо тихого игнорирования ограничений. В релизе представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler на разных архитектурах и аппаратных ускорителях, с поддержкой Vulkan, ROCm, OpenVINO, SYCL и CUDA.

media r/LocalLLaMA · 6 д назад

unsloth GLM-5.2-GGUF с 2-битной квантованией на 238 ГБ

Модель unsloth GLM-5.2-GGUF доступна с 2-битной квантованией, размером 238 ГБ. Она размещена на Hugging Face и поделена в посте в сообществе LocalLLaMA на Reddit.

media r/LocalLLaMA · 6 д назад

Квантование кэша KV NVFP4 на SM120 сделает системы с 32 ГБ ОЗУ очень мощными

Qwen3.6-27B работает со скоростью около 60 токенов в секунду на 32 ГБ ОЗУ с квантованием кэша KV в формате FP8. Квантование кэша KV NVFP4 на SM120 может значительно повысить производительность на таких системах, хотя текущая реализация пока недоступна.

media r/LocalLLaMA · 6 д назад

Llama Bench vs Реальное отклонение производительности

Пользователь сообщает о значительной разнице между результатами Llama benchmark и реальной производительностью модели. Бенчмарки показывают 754 токен/с при предварительной загрузке и 36 токен/с при генерации, однако в реальных условиях наблюдается только 7,98 токена в секунду, с высокой задержкой и плохим пропускным расходом. Отклонение объясняется реальными условиями использования, а не настройками бенчмарка, что указывает на то, что реальная производительность модели значительно ниже скорости, указанной в бенчмарке.

github llama.cpp · 7 д назад

LLaMA.cpp Release b9698 Добавляет поддержку самоподписки и бинарники для нескольких платформ

Версия LLaMA.cpp b9698 позволяет включать самоподписку только при сборке с помощью llama-install.sh. В этом выпуске представлены бинарники для macOS, Linux, Android, Windows и openEuler на разных архитектурах и вариантах ускорения, включая Vulkan, CUDA, OpenVINO и SYCL.

arxiv arXiv cs.LG · 7 д назад

TransitNet достигает точности 95,2% при поиске транзитов в условиях низкого уровня шума

TransitNet, компактная система глубокого обучения с усилением внимания, достигает точности 95,2% при поиске транзитов в условиях низкого уровня шума, превосходя TLS и BLS по значениям ROC-AUC и PR-AP. Он восстанавливает 93,0% введённых транзитов размером Земли и подземных планет, 97,4% введённых транзитов полностью охвачены оцененными окнами транзитов, и успешно восстанавливает все 34 подтверждённых планет Кеплера с средней ошибкой в середине 1,24 часа.

arxiv arXiv cs.LG · 7 д назад

EfficientRollout: Системно-осознанная самоспекулятивная декодировка для RL-роллов

EfficientRollout представляет самоспекулятивную декодирующую систему, которая снижает задержку рулл-оута и задержку в конце до 19,6% и 12,7% соответственно, не ухудшая итогальную качество модели. Она использует квантованный драфтер, полученный из целевой модели, и интегрирует системно-осознанную политику переключения, чтобы избежать режимов высокой вычислительной нагрузки, обеспечивая эффективную спекуляцию во время эволюции политики.

arxiv arXiv cs.LG · 7 д назад

FoMoE преодолевает порог полных копий с помощью разделенных экспертных слоев

FoMoE представляет систему, которая распределяет экспертные слои между рабочими узлами, чтобы избежать полных копий модели, снижая затраты на коммуникацию на 1,42 раза по сравнению с базовыми вариантами и на 45,44 раза по сравнению с DDP. Система достигает увеличения производительности до 1,4 раза за счёт механизма пропуска токенов и демонстрирует стабильную маршрутизацию, с прогнозируемыми преимуществами, распространяющимися на модели масштаба 100B, за счёт системного моделирования.

arxiv arXiv cs.LG · 7 д назад

CAHP: Комплементарное упрощение голов внимания для эффективных трансформеров

CAHP представляет пост-обработочный фреймворк, который использует теоретические графы и меры информационной теории для выбора комплементарных голов внимания в трансформерах. Он автоматически определяет сохранение голов без предварительного редукционного параметра, выявляет порог ухудшения производительности для обеспечения минимального потерь модели, и превосходит базовые методы в условиях высокой сжатия, сохраняя функционально критически важные головы в промежуточных слоях.

arxiv arXiv cs.AI · 7 д назад

SwitchBraidNet: Легковесная модель EEG для гибридных БИС

SwitchBraidNet — это архитектура классификации EEG с учётом квантования, обеспечивающая высокую точность в задачах моторной имитации и SSVEP. Она превосходит четыре базовых варианта по точности в форматах FP16 и FP32: точность в задаче моторной имитации составляет 69,49%, точность в задаче SSVEP — 93,48%, а гибридная скорость передачи информации — 64,82 бита/мин в формате FP16. Модель работает эффективно и занимает всего 3,03 КБ памяти в формате INT8, что позволяет использовать её в низкоэнергетических встраиваемых системах.

arxiv arXiv cs.AI · 7 д назад

TransitNet достигает точности 95,2% при поиске транзитов в условиях низкого уровня шума

TransitNet, компактная архитектура глубокого обучения с усилением внимания, достигает точности 95,2% при поиске транзитов в условиях низкого уровня шума, превосходя TLS и BLS по значениям ROC-AUC и PR-AP. Он восстанавливает 93,0% введенных транзитов размером Земли и подземной Земли, 97,4% введенных транзитов полностью охвачены оцененными окнами транзита, и успешно восстанавливает все 34 подтвержденных планет Кеплера с средней ошибкой в середине 1,24 часа.

arxiv arXiv cs.AI · 7 д назад

FoMoE преодолевает порог полных копий с помощью разделенных экспертиз слоев

FoMoE представляет систему, которая распределяет экспертизные слои между рабочими, чтобы избежать полных копий модели, снижая затраты на коммуникацию до 1,42 раза по сравнению с эффективными базовыми вариантами и до 45,44 раза по сравнению с DDP. Система достигает увеличения производительности до 1,4 раза за счёт механизма пропуска токенов и демонстрирует стабильную маршрутизацию, с прогнозируемыми преимуществами, распространяющимися на модели масштаба 100B, за счёт системного моделирования.

lab Claude Code Releases · 7 д назад

Официальные заметки по выпуску Claude Code v2.1.181

Claude Code v2.1.181 вводит поддержку настройки параметров конфигурации через синтаксис промпта, например /config thinking=false, добавляет поддержку событий Apple в среде macOS и улучшает поведение потокового вывода, автоматического повтора и подагентов. Также исправлены множество ошибок, связанных с запуском, обработкой файлов, копированием и отзывчивостью интерфейса на разных платформах.

github llama.cpp · 7 д назад

ggml-cpu: Включать бэкенд POWER11 условно в зависимости от поддержки компилятором

Проект ggml-cpu теперь условно включает бэкенд POWER11 в ggml в зависимости от поддержки компилятором опции -mcpu=power11. Это предотвращает сбои при сборке в текущих GCC/Clang инструментальных цепочках, при этом сохраняя совместимость с будущими версиями. Обновления CMakeLists.txt поддерживают это изменение, и для обоих архитектур P10 и P11 используется опция -mcpu=power10.