Все статьи
media r/LocalLLaMA · 12 д назад

SupraLabs выпустил модель SupraVL-Nano-900k для обработки изображений и языка

SupraLabs представил модель SupraVL-Nano-900k, полностью прозрачную модель из 900 тысяч параметров, обученную с нуля на наборе Flickr8k. Модель включает в себя CNN-энкодер, декодер стиля GPT-2 и метод объединения с помощью префикса, все компоненты которой полностью документированы и разработаны с целью образовательной ясности.

github llama.cpp · 12 д назад

llama.cpp Release b9721 Доступен для нескольких платформ

llama.cpp выпустил версию b9721, в которой доступны бинарники для macOS, Linux, Android, Windows и openEuler на различных архитектурах. В выпуске включены поддержка CPU, Vulkan, ROCm, OpenVINO, SYCL и HIP, а также отдельный пакет для интерфейса. Поддержка Apple Silicon с KleidiAI на данный момент отключена.

media r/LocalLLaMA · 12 д назад

Охо-Сейт-Университет выпускает открытый Deep Research-агент QUEST-35B

Исследователи из Охо-Сейт-Университета обучили агента Deep Research QUEST-35B с использованием приблизительно 32 GPU H100 и 8 000 синтетических образцов. Они опубликовали рецепт обучения, код, веса и датасеты, при этом результаты тестирования показывают конкурентоспособную производительность по сравнению с ведущими закрытыми системами Deep Research.

media r/LocalLLaMA · 12 д назад

GLM-5.2 теперь может работать локально в llama.cpp и Unsloth Studio

GLM-5.2, самый сильный открытый модель до сих пор, теперь может работать локально с помощью llama.cpp и Unsloth Studio. Модель с квантованием на 2 бита сохраняет ~82% точности после сокращения размера с 1,51 ТБ до 238 ГБ, что составляет 84% сокращение, и совместима с установками на 256 ГБ ОЗУ или VRAM.

github OpenAI Agents SDK · 12 д назад

Примечания по выпуску v0.17.6

В выпуске v0.17.6 добавлены предварительные правила ввода инструмента и SDK-только данные для вывода инструмента. Также введена строгая совместимость JSON для вывода инструмента и подавляются предупреждения о лишних пробелах в названиях инструментов. @siddiksawani сделал свой первый вклад в этот выпуск.

media Latent Space · 12 д назад

GLM-5.2 прошёл проверку на атмосферу, превзошёл GPT-5.5

GLM-5.2 прошёл проверку на атмосферу как передовая открытая модель, получив похвалу от Джереми Ховарда и превзойдя GPT-5.5 на новом бенчмарке по искусственному анализу, разработанном Artificial Analysis. Модель также получила подтверждение от сообщества /r/LocalLlama, что указывает на сильную практическую полезность и производительность.

media r/LocalLLaMA · 12 д назад

Как я могу самостоятельно развернуть инструменты проверки кода?

Пользователь спрашивает о развертывании инструментов проверки кода на собственном сервере из-за прекращения поддержки консумерской версии Gemini Code Assist и перехода на только корпоративную версию. Они исследуют GitHub apps или действия для решений, развернутых локально или в облаке.

github llama.cpp · 12 д назад

llama.cpp выпускает b9713 с новыми бинарниками и функциями

llama.cpp выпустил версию b9713, добавив поддержку батчинга в mtmd-cli и тесты на видео. В выпуске представлены бинарники для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и вариантах ускорения, включая Vulkan, CUDA, OpenVINO и SYCL.

github llama.cpp · 13 д назад

llama.cpp release b9714 добавляет заголовок X-Accel-Buffering и новые бинарники

Версия llama.cpp b9714 добавляет заголовок "X-Accel-Buffering": "no" для потоковых концов, чтобы предотвратить буферизацию ответов Nginx, что решает проблемы потоковой передачи в приложениях, таких как Pi coding harness. В этом выпуске представлены бинарники для macOS, Linux, Android, Windows и openEuler на различных архитектурах и вариантах аппаратного ускорения.

arxiv arXiv cs.AI · 13 д назад

UFP4: Единая 4-битовая тренировка устраняет смещение сжатия в предварительной тренировке больших языковых моделей

Исследование выявляет смещение сжатия в форматах на основе E2M1 FP4 из-за геометрической асимметрии, что приводит к накоплению умножительной ошибки и нестабильности тренировки. Предложенная рецептура UFP4 использует единые сетки E1M2/INT4 и применяет случайный Хадамар-преобразование ко всем операциям GEMM, достигая меньшего снижения потерь по сравнению с базовыми вариантами на основе E2M1 в масштабной предварительной тренировке больших языковых моделей. Авторы рекомендуют E1M2/INT4 как первичный тренировочный примитив для будущих ускорителей.

github llama.cpp · 13 д назад

Релиз LLaMA.cpp b9715 добавляет поддержку CUDA Col2Im 1D и бинарные файлы для нескольких платформ

Версия LLaMA.cpp b9715 вводит поддержку CUDA для GGML_OP_COL2IM_1D, основанную на реализации на процессоре. В релизе представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и ускорениях, включая Vulkan, ROCm, OpenVINO и SYCL.

arxiv arXiv cs.AI · 13 д назад

DataMagic превращает таблицы данных в интерактивные видео с анализом данных

DataMagic преобразует сырые таблицы данных и естественные запросы на языке природных языков в видео с аналитическими данными. Система использует DVSpec для обеспечения точности данных, связывая визуальные элементы с полями данных через семантические ссылки, и применяет многопрофильную архитектуру для генерации и координации согласованных сцен видео. Система поддерживает интерактивное исследование и вопросы по данным на основе происхождения, позволяя пользователям взаимодействовать с данными за пределами статических представлений.

arxiv arXiv cs.AI · 13 д назад

NRT-Bench: Многоходовое красное тестирование агентов ЛЛМ в критически важных системах

NRT-Bench представляет бенчмарк для многоходового красного тестирования агентов ЛЛМ, работающих в симулированной атомной электростанции. В четырех передовых моделях операторов в 8,7% до 12,1% атак приводят к потере критической функции безопасности, при этом уязвимости в основном не пересекаются между моделями. Эффективность защит значительно варьируется в зависимости от модели, что демонстрирует сильную зависимость от модели.

arxiv arXiv cs.AI · 13 д назад

Многоуровневая децифрация улучшает классификацию вредоносного ПО на основе больших языковых моделей

Оценка доброкачественных и вредоносных бинарных файлов, скомпилированных и децифрованных с помощью Ghidra и RetDec, показывает, что предоставление обеих децифрационных версий крупным языковым моделям улучшает F1 по классу вредоносного ПО, главным образом за счёт увеличения доли обнаружения. Анализ показывает, что Ghidra и RetDec допускают различные ошибки, что указывает на то, что их выводы предоставляют дополняющие данные для классификации вредоносного ПО.

arxiv arXiv cs.AI · 13 д назад

Внимание-ориентированный глубокий анализ для интерпретируемой классификации морфологии сперматозоидов

Новый фреймворк глубокого обучения комбинирует EfficientNet-B0 с CBAM для повышения точности и интерпретируемости в классификации морфологии сперматозоидов. Оценка на наборах данных SMIDS и HuSHem показывает точность 90,2% и 93,9%, а значения макро-F1 — 0,913 и 0,948, что превосходит базовые модели. Визуализации Grad-CAM++ позволяют проводить прозрачный анализ признаков, что поддерживает клиническое внедрение в кабинетах репродуктивной медицины.

arxiv arXiv cs.AI · 13 д назад

Переиспользование классификатора речи для генерации на основе диффузии

Предварительно обученный классификатор речи переиспользуется как основа для генерации речи на основе диффузии. При привязке легкого подмодуля и обучении его методом сопоставления сценария устранения шума, подход достигает высокого качества речи при снижении памяти и вычислительных затрат, используя один модель вместо двух отдельно обученных компонентов.