Все статьи
media r/LocalLLaMA · 12 д назад

SupraLabs выпустил модель SupraVL-Nano-900k для обработки изображений и языка

SupraLabs представил модель SupraVL-Nano-900k, полностью прозрачную модель из 900 тысяч параметров, обученную с нуля на наборе Flickr8k. Модель включает в себя CNN-энкодер, декодер стиля GPT-2 и метод объединения с помощью префикса, все компоненты которой полностью документированы и разработаны с целью образовательной ясности.

github OpenAI Agents SDK · 12 д назад

Примечания по выпуску v0.17.6

В выпуске v0.17.6 добавлены предварительные правила ввода инструмента и SDK-только данные для вывода инструмента. Также введена строгая совместимость JSON для вывода инструмента и подавляются предупреждения о лишних пробелах в названиях инструментов. @siddiksawani сделал свой первый вклад в этот выпуск.

media Latent Space · 12 д назад

GLM-5.2 прошёл проверку на атмосферу, превзошёл GPT-5.5

GLM-5.2 прошёл проверку на атмосферу как передовая открытая модель, получив похвалу от Джереми Ховарда и превзойдя GPT-5.5 на новом бенчмарке по искусственному анализу, разработанном Artificial Analysis. Модель также получила подтверждение от сообщества /r/LocalLlama, что указывает на сильную практическую полезность и производительность.

media r/LocalLLaMA · 12 д назад

Как я могу самостоятельно развернуть инструменты проверки кода?

Пользователь спрашивает о развертывании инструментов проверки кода на собственном сервере из-за прекращения поддержки консумерской версии Gemini Code Assist и перехода на только корпоративную версию. Они исследуют GitHub apps или действия для решений, развернутых локально или в облаке.

github llama.cpp · 12 д назад

llama.cpp выпускает b9713 с новыми бинарниками и функциями

llama.cpp выпустил версию b9713, добавив поддержку батчинга в mtmd-cli и тесты на видео. В выпуске представлены бинарники для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и вариантах ускорения, включая Vulkan, CUDA, OpenVINO и SYCL.

github llama.cpp · 12 д назад

llama.cpp release b9714 добавляет заголовок X-Accel-Buffering и новые бинарники

Версия llama.cpp b9714 добавляет заголовок "X-Accel-Buffering": "no" для потоковых концов, чтобы предотвратить буферизацию ответов Nginx, что решает проблемы потоковой передачи в приложениях, таких как Pi coding harness. В этом выпуске представлены бинарники для macOS, Linux, Android, Windows и openEuler на различных архитектурах и вариантах аппаратного ускорения.

arxiv arXiv cs.AI · 12 д назад

UFP4: Единая 4-битовая тренировка устраняет смещение сжатия в предварительной тренировке больших языковых моделей

Исследование выявляет смещение сжатия в форматах на основе E2M1 FP4 из-за геометрической асимметрии, что приводит к накоплению умножительной ошибки и нестабильности тренировки. Предложенная рецептура UFP4 использует единые сетки E1M2/INT4 и применяет случайный Хадамар-преобразование ко всем операциям GEMM, достигая меньшего снижения потерь по сравнению с базовыми вариантами на основе E2M1 в масштабной предварительной тренировке больших языковых моделей. Авторы рекомендуют E1M2/INT4 как первичный тренировочный примитив для будущих ускорителей.

github llama.cpp · 12 д назад

Релиз LLaMA.cpp b9715 добавляет поддержку CUDA Col2Im 1D и бинарные файлы для нескольких платформ

Версия LLaMA.cpp b9715 вводит поддержку CUDA для GGML_OP_COL2IM_1D, основанную на реализации на процессоре. В релизе представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и ускорениях, включая Vulkan, ROCm, OpenVINO и SYCL.

arxiv arXiv cs.AI · 12 д назад

DataMagic превращает таблицы данных в интерактивные видео с анализом данных

DataMagic преобразует сырые таблицы данных и естественные запросы на языке природных языков в видео с аналитическими данными. Система использует DVSpec для обеспечения точности данных, связывая визуальные элементы с полями данных через семантические ссылки, и применяет многопрофильную архитектуру для генерации и координации согласованных сцен видео. Система поддерживает интерактивное исследование и вопросы по данным на основе происхождения, позволяя пользователям взаимодействовать с данными за пределами статических представлений.

arxiv arXiv cs.AI · 12 д назад

NRT-Bench: Многоходовое красное тестирование агентов ЛЛМ в критически важных системах

NRT-Bench представляет бенчмарк для многоходового красного тестирования агентов ЛЛМ, работающих в симулированной атомной электростанции. В четырех передовых моделях операторов в 8,7% до 12,1% атак приводят к потере критической функции безопасности, при этом уязвимости в основном не пересекаются между моделями. Эффективность защит значительно варьируется в зависимости от модели, что демонстрирует сильную зависимость от модели.

arxiv arXiv cs.AI · 12 д назад

Многоуровневая децифрация улучшает классификацию вредоносного ПО на основе больших языковых моделей

Оценка доброкачественных и вредоносных бинарных файлов, скомпилированных и децифрованных с помощью Ghidra и RetDec, показывает, что предоставление обеих децифрационных версий крупным языковым моделям улучшает F1 по классу вредоносного ПО, главным образом за счёт увеличения доли обнаружения. Анализ показывает, что Ghidra и RetDec допускают различные ошибки, что указывает на то, что их выводы предоставляют дополняющие данные для классификации вредоносного ПО.

arxiv arXiv cs.AI · 12 д назад

Внимание-ориентированный глубокий анализ для интерпретируемой классификации морфологии сперматозоидов

Новый фреймворк глубокого обучения комбинирует EfficientNet-B0 с CBAM для повышения точности и интерпретируемости в классификации морфологии сперматозоидов. Оценка на наборах данных SMIDS и HuSHem показывает точность 90,2% и 93,9%, а значения макро-F1 — 0,913 и 0,948, что превосходит базовые модели. Визуализации Grad-CAM++ позволяют проводить прозрачный анализ признаков, что поддерживает клиническое внедрение в кабинетах репродуктивной медицины.

arxiv arXiv cs.AI · 12 д назад

Переиспользование классификатора речи для генерации на основе диффузии

Предварительно обученный классификатор речи переиспользуется как основа для генерации речи на основе диффузии. При привязке легкого подмодуля и обучении его методом сопоставления сценария устранения шума, подход достигает высокого качества речи при снижении памяти и вычислительных затрат, используя один модель вместо двух отдельно обученных компонентов.

arxiv arXiv cs.AI · 12 д назад

Контекстуально-осознанный байесовский модель улучшает прогнозирование успеха ИВФ

Иерархическая байесовская модель, использующая 55 контекстуально-осознанных экологических признаков, снижает ошибку прогноза до 1,27% в данных по ИВФ, по сравнению с 3–5% при использовании средних значений датчиков. Модель достигает R2 = 0,86 на отложенных данных и снижает ошибку на 64% для женщин в возрасте 35–39 лет, демонстрируя переносимый клинический сигнал между клиниками.

arxiv arXiv cs.AI · 12 д назад

Защита от автоматизированных атак на агентные ИИ

Системы агентных ИИ сталкиваются с растущими угрозами со стороны автоматизированных атак, основанных на моделях. Новая стратегия защиты — Контекстная дезориентация через прогрессивное вовлечение (CMPE) — снижает успех атакантов до двух порядков и почти полностью устраняет подтвержденные успехи атак в тестах на стандартах.

arxiv arXiv cs.AI · 12 д назад

UltraQuant: 4-бит кэширование KV для агентов с большим контекстом

UltraQuant обеспечивает 4-битное кэширование KV для агентов с большим контекстом, снижая время до первого токена на 3,47 раза в поздних раундах и увеличивая пропускную способность вывода на 1,63 раза по сравнению с базовым вариантом FP8 KV. Для достижения этого используется FP8 запросы, FP4 тензоры KV, масштабы группы UE8M0, а также встроенная операция scaled-MFMA на GPU AMD CDNA4, с оптимизациями для ядер декодирования-внимания и надежными выборами, такими как асимметричное обращение K/V и вращение по Walsh-Hadamard.

arxiv arXiv cs.AI · 12 д назад

Оптимальный порядок в рамке многоагентных систем

Новая рамка анализирует многоагентные системы, моделируя влияние агентов и функции их реакции. Она выводит макроскопические свойства, такие как мощность, энтропия и порядок, и определяет оптимальный уровень синхронизации, который балансирует производительность, стабильность и адаптивность. Исследование показывает, что порядок и свойства системы зависят от задачи и контекста.

arxiv arXiv cs.AI · 12 д назад

Передача предвзятости оценщиков в системах мультиагентных языковых моделей

Contagion Networks представляет рамку для измерения того, как предвзятости оценщиков распространяются среди агентов языковых моделей. В эксперименте с тремя агентами предвзятости распространялись стабильно с коэффициентами заражения от 0,157 до 0,352, и агенты однородных моделей показали значительно меньшую передачу по сравнению с кросс-модельными настройками. Увеличение размера комитета оценщиков от k=1 до k=3 снизило эффективную передачу на 72,4%.