Все статьи
media r/LocalLLaMA · 12 д назад

SupraLabs выпустил модель SupraVL-Nano-900k для обработки изображений и языка

SupraLabs представил модель SupraVL-Nano-900k, полностью прозрачную модель из 900 тысяч параметров, обученную с нуля на наборе Flickr8k. Модель включает в себя CNN-энкодер, декодер стиля GPT-2 и метод объединения с помощью префикса, все компоненты которой полностью документированы и разработаны с целью образовательной ясности.

github llama.cpp · 13 д назад

llama.cpp выпускает b9713 с новыми бинарниками и функциями

llama.cpp выпустил версию b9713, добавив поддержку батчинга в mtmd-cli и тесты на видео. В выпуске представлены бинарники для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и вариантах ускорения, включая Vulkan, CUDA, OpenVINO и SYCL.

github llama.cpp · 13 д назад

llama.cpp release b9714 добавляет заголовок X-Accel-Buffering и новые бинарники

Версия llama.cpp b9714 добавляет заголовок "X-Accel-Buffering": "no" для потоковых концов, чтобы предотвратить буферизацию ответов Nginx, что решает проблемы потоковой передачи в приложениях, таких как Pi coding harness. В этом выпуске представлены бинарники для macOS, Linux, Android, Windows и openEuler на различных архитектурах и вариантах аппаратного ускорения.

arxiv arXiv cs.AI · 13 д назад

UFP4: Единая 4-битовая тренировка устраняет смещение сжатия в предварительной тренировке больших языковых моделей

Исследование выявляет смещение сжатия в форматах на основе E2M1 FP4 из-за геометрической асимметрии, что приводит к накоплению умножительной ошибки и нестабильности тренировки. Предложенная рецептура UFP4 использует единые сетки E1M2/INT4 и применяет случайный Хадамар-преобразование ко всем операциям GEMM, достигая меньшего снижения потерь по сравнению с базовыми вариантами на основе E2M1 в масштабной предварительной тренировке больших языковых моделей. Авторы рекомендуют E1M2/INT4 как первичный тренировочный примитив для будущих ускорителей.

github llama.cpp · 13 д назад

Релиз LLaMA.cpp b9715 добавляет поддержку CUDA Col2Im 1D и бинарные файлы для нескольких платформ

Версия LLaMA.cpp b9715 вводит поддержку CUDA для GGML_OP_COL2IM_1D, основанную на реализации на процессоре. В релизе представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и ускорениях, включая Vulkan, ROCm, OpenVINO и SYCL.

arxiv arXiv cs.AI · 13 д назад

DataMagic превращает таблицы данных в интерактивные видео с анализом данных

DataMagic преобразует сырые таблицы данных и естественные запросы на языке природных языков в видео с аналитическими данными. Система использует DVSpec для обеспечения точности данных, связывая визуальные элементы с полями данных через семантические ссылки, и применяет многопрофильную архитектуру для генерации и координации согласованных сцен видео. Система поддерживает интерактивное исследование и вопросы по данным на основе происхождения, позволяя пользователям взаимодействовать с данными за пределами статических представлений.

arxiv arXiv cs.AI · 13 д назад

NRT-Bench: Многоходовое красное тестирование агентов ЛЛМ в критически важных системах

NRT-Bench представляет бенчмарк для многоходового красного тестирования агентов ЛЛМ, работающих в симулированной атомной электростанции. В четырех передовых моделях операторов в 8,7% до 12,1% атак приводят к потере критической функции безопасности, при этом уязвимости в основном не пересекаются между моделями. Эффективность защит значительно варьируется в зависимости от модели, что демонстрирует сильную зависимость от модели.

arxiv arXiv cs.AI · 13 д назад

Многоуровневая децифрация улучшает классификацию вредоносного ПО на основе больших языковых моделей

Оценка доброкачественных и вредоносных бинарных файлов, скомпилированных и децифрованных с помощью Ghidra и RetDec, показывает, что предоставление обеих децифрационных версий крупным языковым моделям улучшает F1 по классу вредоносного ПО, главным образом за счёт увеличения доли обнаружения. Анализ показывает, что Ghidra и RetDec допускают различные ошибки, что указывает на то, что их выводы предоставляют дополняющие данные для классификации вредоносного ПО.

arxiv arXiv cs.AI · 13 д назад

Внимание-ориентированный глубокий анализ для интерпретируемой классификации морфологии сперматозоидов

Новый фреймворк глубокого обучения комбинирует EfficientNet-B0 с CBAM для повышения точности и интерпретируемости в классификации морфологии сперматозоидов. Оценка на наборах данных SMIDS и HuSHem показывает точность 90,2% и 93,9%, а значения макро-F1 — 0,913 и 0,948, что превосходит базовые модели. Визуализации Grad-CAM++ позволяют проводить прозрачный анализ признаков, что поддерживает клиническое внедрение в кабинетах репродуктивной медицины.

arxiv arXiv cs.AI · 13 д назад

Переиспользование классификатора речи для генерации на основе диффузии

Предварительно обученный классификатор речи переиспользуется как основа для генерации речи на основе диффузии. При привязке легкого подмодуля и обучении его методом сопоставления сценария устранения шума, подход достигает высокого качества речи при снижении памяти и вычислительных затрат, используя один модель вместо двух отдельно обученных компонентов.

arxiv arXiv cs.AI · 13 д назад

Контекстуально-осознанный байесовский модель улучшает прогнозирование успеха ИВФ

Иерархическая байесовская модель, использующая 55 контекстуально-осознанных экологических признаков, снижает ошибку прогноза до 1,27% в данных по ИВФ, по сравнению с 3–5% при использовании средних значений датчиков. Модель достигает R2 = 0,86 на отложенных данных и снижает ошибку на 64% для женщин в возрасте 35–39 лет, демонстрируя переносимый клинический сигнал между клиниками.

arxiv arXiv cs.AI · 13 д назад

Защита от автоматизированных атак на агентные ИИ

Системы агентных ИИ сталкиваются с растущими угрозами со стороны автоматизированных атак, основанных на моделях. Новая стратегия защиты — Контекстная дезориентация через прогрессивное вовлечение (CMPE) — снижает успех атакантов до двух порядков и почти полностью устраняет подтвержденные успехи атак в тестах на стандартах.

arxiv arXiv cs.AI · 13 д назад

UltraQuant: 4-бит кэширование KV для агентов с большим контекстом

UltraQuant обеспечивает 4-битное кэширование KV для агентов с большим контекстом, снижая время до первого токена на 3,47 раза в поздних раундах и увеличивая пропускную способность вывода на 1,63 раза по сравнению с базовым вариантом FP8 KV. Для достижения этого используется FP8 запросы, FP4 тензоры KV, масштабы группы UE8M0, а также встроенная операция scaled-MFMA на GPU AMD CDNA4, с оптимизациями для ядер декодирования-внимания и надежными выборами, такими как асимметричное обращение K/V и вращение по Walsh-Hadamard.

arxiv arXiv cs.AI · 13 д назад

Оптимальный порядок в рамке многоагентных систем

Новая рамка анализирует многоагентные системы, моделируя влияние агентов и функции их реакции. Она выводит макроскопические свойства, такие как мощность, энтропия и порядок, и определяет оптимальный уровень синхронизации, который балансирует производительность, стабильность и адаптивность. Исследование показывает, что порядок и свойства системы зависят от задачи и контекста.

arxiv arXiv cs.AI · 13 д назад

Передача предвзятости оценщиков в системах мультиагентных языковых моделей

Contagion Networks представляет рамку для измерения того, как предвзятости оценщиков распространяются среди агентов языковых моделей. В эксперименте с тремя агентами предвзятости распространялись стабильно с коэффициентами заражения от 0,157 до 0,352, и агенты однородных моделей показали значительно меньшую передачу по сравнению с кросс-модельными настройками. Увеличение размера комитета оценщиков от k=1 до k=3 снизило эффективную передачу на 72,4%.

arxiv arXiv cs.AI · 13 д назад

Калибровка без понимания в обнаружении уязвимостей в LLM

CWE-Trace оценивает восемь прямых и 15 LoRA-настроенных LLM на обнаружении уязвимостей в ядре Linux. Результаты показывают, что заражение данными не дает преимущества, а настройка только сдвигает пороги вывода без изменения политики принятия решений. Несмотря на улучшение показателей обнаружения, LLM не обладают надежным безопасным мышлением, при этом точность по CWE на первом месте составляет менее 1,3%, а бинарная производительность обнаружения достигает 52,1%.

arxiv arXiv cs.AI · 13 д назад

FreeStyle: масштабируемое генерирование двойных ссылок через извлечение сообщественных LoRAs

FreeStyle предлагает рамку, которая извлекает сообщественные LoRAs для генерации масштабных троек изображений с двумя ссылками — стилем и содержанием. В ней используется двухэтапная куррикулярная система с механизмами разъединения, чтобы подавить утечку стиля, и вводится бенчмарк с оценками, не зависящими от стиля и основанными на ВЛМ, для оценки сохранения содержания и отклонения утечки стиля.

arxiv arXiv cs.AI · 13 д назад

Как безопасные LLM интерпретируют смешанные демонстрации соблюдения

Исследования показывают, что добрые и вредные демонстрации соблюдения не являются взаимозаменяемыми в LLM. Добрые демонстрации могут либо снизить, либо увеличить вредные демонстрации в зависимости от модели, при этом оптимизация предпочтений играет ключевую роль в предотвращении вредных демонстраций. Порядок демонстраций показывает сильную предпочтительность последних элементов, и модели различаются по способности обрабатывать отказ в процессе обучения в контексте.

arxiv arXiv cs.AI · 13 д назад

Эффективная и надежная вероятностная проверка для агентов ИИ

Новый фреймворк обеспечивает безопасную вероятностную проверку политик для агентов ИИ в неопределенных средах. Он использует распределенно устойчивую оптимизацию для вычисления строгих верхних оценок вероятности нарушения политик без предположения независимости предикатов. Метод превосходит предыдущие подходы на бенчмарках для агентов-конечных и вызова инструментов, улучшая баланс между безопасностью и полезностью.

arxiv arXiv cs.AI · 13 д назад

Multi-LCB: Расширение LiveCodeBench до 12 языков программирования

Multi-LCB расширяет LiveCodeBench до двенадцати языков программирования, сохраняя его меры контроля за загрязнением и протокол оценки. Оно выявляет переобучение Python, языковые предвзятости и значительные разрывы в производительности между LLM на разных языках, устанавливая строгий стандарт для генерации кода на разных языках.