Все статьи
media r/LocalLLaMA · 12 д назад

SupraLabs выпустил модель SupraVL-Nano-900k для обработки изображений и языка

SupraLabs представил модель SupraVL-Nano-900k, полностью прозрачную модель из 900 тысяч параметров, обученную с нуля на наборе Flickr8k. Модель включает в себя CNN-энкодер, декодер стиля GPT-2 и метод объединения с помощью префикса, все компоненты которой полностью документированы и разработаны с целью образовательной ясности.

media r/LocalLLaMA · 12 д назад

Кто-то здесь использует две RTX 5090?

Пользователь спрашивает, есть ли у кого-то недавно собранная система из двух RTX 5090, отмечая, что их текущая система из двух RTX 3090 работает хорошо для разработки программного обеспечения. Они упоминают, что переход на две RTX 5090 является дорогостоящим и рассматривают свои розетки в общежитии как возможное ограничение.

media r/LocalLLaMA · 12 д назад

Отмечено цензурирование локальных LLM на Reddit

Пользователи сообщают, что локальные языковые модели отказываются отвечать на вопросы без ограничителей, что вызывает опасения по поводу цензурирования в распределённых системах ИИ. Вопрос был обнаружен в сообществе Reddit LocalLLaMA, где пользователи описывают случаи блокировки ответов на законные запросы.

media r/LocalLLaMA · 12 д назад

Многоуровневые рабочие процессы агентов в Word

Блог-пост описывает, как реализовать многоуровневые рабочие процессы агентов в Microsoft Word с использованием локальных моделей языковой обработки. В руководстве приведены шаги по настройке агентов для обработки и взаимодействия с несколькими документами в рамках одного окружения Word.

media r/LocalLLaMA · 12 д назад

EvoTensile: эволюционная настройка ядер AMD Tensile GEMM

EvoTensile использует эволюционные алгоритмы для настройки ядер GEMM для видеокарт AMD, повышая производительность размещения NT с 20 до 40 ТФЛОПС на Strix Halo. Это ускорение представляет собой значительный прогресс по сравнению с неоптимизированными ядрами, хотя и остается ниже теоретического предела в 59,4 ТФЛОПС.

media r/LocalLLaMA · 12 д назад

Охо-Сейт-Университет выпускает открытый Deep Research-агент QUEST-35B

Команда NLP Охо-Сейт-Университета выпустила QUEST-35B, открытый Deep Research-агент, обученный на примерно 32 картах H100 с использованием 8 000 синтетических образцов. Команда открыла доступ к рецепту обучения, коду, весам и наборам данных, при этом результаты тестирования показывают конкурентоспособную производительность по сравнению с ведущими закрытыми Deep Research-системами.

github llama.cpp · 12 д назад

llama.cpp Release b9721 Доступен для нескольких платформ

llama.cpp выпустил версию b9721, в которой доступны бинарники для macOS, Linux, Android, Windows и openEuler на различных архитектурах. В выпуске включены поддержка CPU, Vulkan, ROCm, OpenVINO, SYCL и HIP, а также отдельный пакет для интерфейса. Поддержка Apple Silicon с KleidiAI на данный момент отключена.

media r/LocalLLaMA · 12 д назад

Охо-Сейт-Университет выпускает открытый Deep Research-агент QUEST-35B

Исследователи из Охо-Сейт-Университета обучили агента Deep Research QUEST-35B с использованием приблизительно 32 GPU H100 и 8 000 синтетических образцов. Они опубликовали рецепт обучения, код, веса и датасеты, при этом результаты тестирования показывают конкурентоспособную производительность по сравнению с ведущими закрытыми системами Deep Research.

media r/LocalLLaMA · 12 д назад

GLM-5.2 теперь может работать локально в llama.cpp и Unsloth Studio

GLM-5.2, самый сильный открытый модель до сих пор, теперь может работать локально с помощью llama.cpp и Unsloth Studio. Модель с квантованием на 2 бита сохраняет ~82% точности после сокращения размера с 1,51 ТБ до 238 ГБ, что составляет 84% сокращение, и совместима с установками на 256 ГБ ОЗУ или VRAM.

github OpenAI Agents SDK · 12 д назад

Примечания по выпуску v0.17.6

В выпуске v0.17.6 добавлены предварительные правила ввода инструмента и SDK-только данные для вывода инструмента. Также введена строгая совместимость JSON для вывода инструмента и подавляются предупреждения о лишних пробелах в названиях инструментов. @siddiksawani сделал свой первый вклад в этот выпуск.

media Latent Space · 12 д назад

GLM-5.2 прошёл проверку на атмосферу, превзошёл GPT-5.5

GLM-5.2 прошёл проверку на атмосферу как передовая открытая модель, получив похвалу от Джереми Ховарда и превзойдя GPT-5.5 на новом бенчмарке по искусственному анализу, разработанном Artificial Analysis. Модель также получила подтверждение от сообщества /r/LocalLlama, что указывает на сильную практическую полезность и производительность.

media r/LocalLLaMA · 12 д назад

Как я могу самостоятельно развернуть инструменты проверки кода?

Пользователь спрашивает о развертывании инструментов проверки кода на собственном сервере из-за прекращения поддержки консумерской версии Gemini Code Assist и перехода на только корпоративную версию. Они исследуют GitHub apps или действия для решений, развернутых локально или в облаке.

github llama.cpp · 12 д назад

llama.cpp выпускает b9713 с новыми бинарниками и функциями

llama.cpp выпустил версию b9713, добавив поддержку батчинга в mtmd-cli и тесты на видео. В выпуске представлены бинарники для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и вариантах ускорения, включая Vulkan, CUDA, OpenVINO и SYCL.

github llama.cpp · 12 д назад

llama.cpp release b9714 добавляет заголовок X-Accel-Buffering и новые бинарники

Версия llama.cpp b9714 добавляет заголовок "X-Accel-Buffering": "no" для потоковых концов, чтобы предотвратить буферизацию ответов Nginx, что решает проблемы потоковой передачи в приложениях, таких как Pi coding harness. В этом выпуске представлены бинарники для macOS, Linux, Android, Windows и openEuler на различных архитектурах и вариантах аппаратного ускорения.