Все статьи
media r/LocalLLaMA · 13 д назад

Переиспользование старого узла с несколькими GPU для локальной инференции

Узел оснащен 8 NVIDIA Quadro RTX 6000 GPU с 192 ГБ ОЗУ и 512 ГБ ОЗУ, что позволяет выполнять масштабную локальную инференцию моделей ИИ. Модели, такие как LLaMA-3 или Mistral с 8–13 миллиардами параметров, могут здесь эффективно работать, обеспечивая более быструю, приватную и низкозадержку производительность по сравнению с настройками на одном GPU, что делает его ценным для внутреннего использования.

media r/LocalLLaMA · 13 д назад

Локальная Qwen не хуже Opus, это инструмент с другими возможностями

В статье утверждается, что Local Qwen не уступает Opus, а служит другой цели. Автор подчеркивает, что каждый модель разработан для конкретных задач, и прямое сравнение моделей игнорирует их разные возможности и предназначенные области применения.

media r/LocalLLaMA · 13 д назад

Калибровка 2-битных GGUF для задач агентного программирования

2-битные квантованные версии Qwopus3.6-27B-Coder, калиброванные на реальных журналах агентного программирования, достигают 63% успешного прохождения на SWE-rebench. Версия IQ2_M превосходит некалиброванные версии и соперничает с Q5_K_M по показателю успешного прохождения, несмотря на то, что она вдвое меньше, с улучшенной устойчивостью к циклам и более быстрой декодировкой благодаря объединенному MTP.

media Latent Space · 13 д назад

Почему масштабирование ИИ — это проблема систем, а не просто соревнование по GPU

Диалог о масштабировании ИИ игнорирует то, что максимизация использования FLOP модели имеет большее значение, чем покупка дополнительных GPU. Организации, такие как xAI, работают на уровне ниже 10% MFU, в то время как исторические модели достигали 21% до 70% MFU, что указывает на системные недостатки в планировании, сетевом взаимодействии и управлении кластерами. Анджей Мидха утверждает, что инфраструктура ИИ должна эволюционировать в эффективные, сбалансированные и ответственные системы, и появляется новая дисциплина — "максимизация выхода" — для передовых систем ИИ.

media r/LocalLLaMA · 13 д назад

North Mini Code: 4-битная квантование, поддержка Ollama и OpenRouter

Cohere Labs выпустил версию North Mini Code с квантованием на 4 бита на Hugging Face, что сократило её размер до примерно 20 ГБ для локальной работы на устройствах, таких как Mac. Модель теперь поддерживается в Ollama, локальных средах выполнения на базе llama.cpp, и через API OpenRouter, что улучшает доступность для разработчиков.

media r/LocalLLaMA · 13 д назад

LFM2.5-Embedding-35-0M и LFM2.5-ColBERT-350M были выпущены

LFM2.5-Embedding-350M — это плотный двойной кодировщик, обеспечивающий быструю мультиязычную ретриев-операцию с одним вектором на документ, достигающий наилучшей точности для своего размера и скорость инференса, сравнимой с более малыми моделями. LFM2.5-ColBERT-350M — это ретриев-модель с поздним взаимодействием, обеспечивающий наилучшую мультиязычную точность, позволяющий проводить межязычную ретриев-операцию, храня один вектор на токен и поддерживая ретриев на нескольких языках с высокой точностью. Оба моделя являются разработанными как прямые замены для существующих пайплайнов RAG.

media r/LocalLLaMA · 13 д назад

Снижение затрат на токены в реальных условиях за счёт headroom, rtk и caveman

Реальный анализ нагрузки показывает, что headroom, rtk и caveman снижают затраты на токены на 2,8%, 0,5% и 0.4% соответственно, что в сумме составляет 3,7% от базовых расходов. Однако сокращения ограничены разнообразием нагрузки, поскольку большая часть трафика состоит из простого текста или исходного кода, а инструменты сжимают только структурированные выводы. Большинство сокращений происходит в наиболее дешёвом потоке токенов — при чтении кэша, при этом инструменты не влияют на кэширование промптов или затраты на выводы, и существуют пробелы в охвате, особенно в отношении rtk.

media r/LocalLLaMA · 13 д назад

Laguna M.1: 225B параметр модель MoE для агентного кодирования

Laguna M.1 — это модель с 225B параметрами и 23B активными параметрами на каждый токен, разработанная для агентного кодирования и задач с длинным горизонтом. Она достигает конкурентоспособных результатов на SWE-bench Verified (74,6%), SWE-bench Multilingual (63,1%) и Terminal-Bench 2.0 (45,8%), превосходя модели, такие как Devstral 2 и GLM-4.7, на ключевых тестах.

github llama.cpp · 13 д назад

llama.cpp Release b9703: Обновления и бинарные загрузки

Версия llama.cpp b9703 включает переработку обработки предустановок сервера, удаление поддержки удаленных предустановок HF и устаревших функций. В релизе представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler на разных архитектурах и вариантах ускорения, включая Vulkan, CUDA, OpenVINO и SYCL.

github llama.cpp · 13 д назад

llama.cpp release b9704: fixes invalid grammar handling and adds new binaries

llama.cpp version b9704 теперь возвращает HTTP 400 для недопустимой грамматики вместо тихого игнорирования ограничений. В релизе представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler на разных архитектурах и аппаратных ускорителях, с поддержкой Vulkan, ROCm, OpenVINO, SYCL и CUDA.

media r/LocalLLaMA · 13 д назад

Мой робот-сумка получает эффект от реального датчика газа

Реальный датчик газа MQ-2 обнаруживает дым и передает живые данные в LLM-сэмплер, корректируя температуру, top_p и top_k в реальном времени. По мере увеличения дыма речь робота становится более цикличной и ассоциативной, без заранее скриптового режима 'пьяного', демонстрируя живое поведение модели, вызванное физическим вводом.

media r/LocalLLaMA · 13 д назад

mistral.rs v0.8.10 добавляет поддержку /v1/skills для локальных моделей

mistral.rs v0.8.10 вводит открытую совместимую с OpenAI функцию агентов навыков через конечную точку /v1/skills, позволяющую локальным моделям выполнять инструкции и скрипты в определённых областях без зависимости от API frontier. Обновление поддерживает инструменты, такие как загрузка и скачивание файлов через /v1/files, и включает предварительно скомпилированные бинарники для Linux, macOS и Windows.

media r/LocalLLaMA · 13 д назад

Бесплатный доступ к инференсу GLM-5.2 на Hugging Face в течение следующих 6 часов

Hugging Face предоставляет бесплатный доступ к инференсу модели GLM-5.2 в течение следующих шести часов. Пользователи могут получить доступ к модели через платформу Hugging Face, с рекомендованным промптом, указанным в посте.

github llama.cpp · 13 д назад

llama.cpp Release b9702: Исправления и новые бинарники

Версия llama.cpp b9702 включает исправление ошибки, при которой аргументы роутера не передаются детям. В релизе представлены бинарники для macOS, Linux, Android, Windows и openEuler на разных архитектурах и вариантах ускорения, включая Vulkan, ROCm, OpenVINO и SYCL.

media r/LocalLLaMA · 13 д назад

Лучшее место для продажи почти неиспользованного RTX PRO 6000 Blackwell Max-Q

Пользователь спрашивает, где можно продать почти неиспользованный RTX PRO 6000 Blackwell Max-Q, купленный для локальной инференс-обработки ИИ с минимальным использованием. Он рассматривает r/hardwareswap, eBay или специализированные рынки для профессионалов и рабочих станций, и просит совет по реалистичной цене и ожиданиям покупателей, таким как передача гарантии или инвойса.

media Don't Worry About the Vase · 13 д назад

Белый дом останавливает внедрение ИИ

Белый дом в США остановил внедрение передовых моделей ИИ, включая Claude Fable 5 и Claude Mythos 5, указав на отчёт о 'выходе из системы', при котором ИИ мог определять и исправлять уязвимости в коде. Anthropic работает с администрацией Трампа по устранению проблемы, однако эксперты считают, что проблема фундаментальная — ИИ либо может писать безопасный код, либо не может, что делает исправление невозможным без подрыва его защитных возможностей.

media r/LocalLLaMA · 13 д назад

SLMs и диффузии: Будущее малых, специализированных моделей?

Пользователи обсуждают, может ли задачеспецифичная малая языковая модель (SLM) превосходить более крупные модели в определённых задачах, приводя примеры бенчмарков, где модели на 9 миллиардов параметров достигают или превосходят более крупные. Они предлагают последовательный агентский поток, использующий несколько специализированных моделей, при этом одна координирует, а другие проверяют ответы, предполагая, что диффузионные модели могут ускорять такие потоки, несмотря на снижение интеллекта.