Все статьи
media r/LocalLLaMA · 12 д назад

SupraLabs выпустил модель SupraVL-Nano-900k для обработки изображений и языка

SupraLabs представил модель SupraVL-Nano-900k, полностью прозрачную модель из 900 тысяч параметров, обученную с нуля на наборе Flickr8k. Модель включает в себя CNN-энкодер, декодер стиля GPT-2 и метод объединения с помощью префикса, все компоненты которой полностью документированы и разработаны с целью образовательной ясности.

arxiv arXiv cs.AI · 12 д назад

UFP4: Единая 4-битовая тренировка устраняет смещение сжатия в предварительной тренировке больших языковых моделей

Исследование выявляет смещение сжатия в форматах на основе E2M1 FP4 из-за геометрической асимметрии, что приводит к накоплению умножительной ошибки и нестабильности тренировки. Предложенная рецептура UFP4 использует единые сетки E1M2/INT4 и применяет случайный Хадамар-преобразование ко всем операциям GEMM, достигая меньшего снижения потерь по сравнению с базовыми вариантами на основе E2M1 в масштабной предварительной тренировке больших языковых моделей. Авторы рекомендуют E1M2/INT4 как первичный тренировочный примитив для будущих ускорителей.

arxiv arXiv cs.AI · 13 д назад

DataMagic превращает таблицы данных в интерактивные видео с анализом данных

DataMagic преобразует сырые таблицы данных и естественные запросы на языке природных языков в видео с аналитическими данными. Система использует DVSpec для обеспечения точности данных, связывая визуальные элементы с полями данных через семантические ссылки, и применяет многопрофильную архитектуру для генерации и координации согласованных сцен видео. Система поддерживает интерактивное исследование и вопросы по данным на основе происхождения, позволяя пользователям взаимодействовать с данными за пределами статических представлений.

arxiv arXiv cs.AI · 13 д назад

NRT-Bench: Многоходовое красное тестирование агентов ЛЛМ в критически важных системах

NRT-Bench представляет бенчмарк для многоходового красного тестирования агентов ЛЛМ, работающих в симулированной атомной электростанции. В четырех передовых моделях операторов в 8,7% до 12,1% атак приводят к потере критической функции безопасности, при этом уязвимости в основном не пересекаются между моделями. Эффективность защит значительно варьируется в зависимости от модели, что демонстрирует сильную зависимость от модели.

arxiv arXiv cs.AI · 13 д назад

Многоуровневая децифрация улучшает классификацию вредоносного ПО на основе больших языковых моделей

Оценка доброкачественных и вредоносных бинарных файлов, скомпилированных и децифрованных с помощью Ghidra и RetDec, показывает, что предоставление обеих децифрационных версий крупным языковым моделям улучшает F1 по классу вредоносного ПО, главным образом за счёт увеличения доли обнаружения. Анализ показывает, что Ghidra и RetDec допускают различные ошибки, что указывает на то, что их выводы предоставляют дополняющие данные для классификации вредоносного ПО.

arxiv arXiv cs.AI · 13 д назад

Внимание-ориентированный глубокий анализ для интерпретируемой классификации морфологии сперматозоидов

Новый фреймворк глубокого обучения комбинирует EfficientNet-B0 с CBAM для повышения точности и интерпретируемости в классификации морфологии сперматозоидов. Оценка на наборах данных SMIDS и HuSHem показывает точность 90,2% и 93,9%, а значения макро-F1 — 0,913 и 0,948, что превосходит базовые модели. Визуализации Grad-CAM++ позволяют проводить прозрачный анализ признаков, что поддерживает клиническое внедрение в кабинетах репродуктивной медицины.

arxiv arXiv cs.AI · 13 д назад

Переиспользование классификатора речи для генерации на основе диффузии

Предварительно обученный классификатор речи переиспользуется как основа для генерации речи на основе диффузии. При привязке легкого подмодуля и обучении его методом сопоставления сценария устранения шума, подход достигает высокого качества речи при снижении памяти и вычислительных затрат, используя один модель вместо двух отдельно обученных компонентов.

arxiv arXiv cs.AI · 13 д назад

Контекстуально-осознанный байесовский модель улучшает прогнозирование успеха ИВФ

Иерархическая байесовская модель, использующая 55 контекстуально-осознанных экологических признаков, снижает ошибку прогноза до 1,27% в данных по ИВФ, по сравнению с 3–5% при использовании средних значений датчиков. Модель достигает R2 = 0,86 на отложенных данных и снижает ошибку на 64% для женщин в возрасте 35–39 лет, демонстрируя переносимый клинический сигнал между клиниками.

arxiv arXiv cs.AI · 13 д назад

Защита от автоматизированных атак на агентные ИИ

Системы агентных ИИ сталкиваются с растущими угрозами со стороны автоматизированных атак, основанных на моделях. Новая стратегия защиты — Контекстная дезориентация через прогрессивное вовлечение (CMPE) — снижает успех атакантов до двух порядков и почти полностью устраняет подтвержденные успехи атак в тестах на стандартах.

arxiv arXiv cs.AI · 13 д назад

UltraQuant: 4-бит кэширование KV для агентов с большим контекстом

UltraQuant обеспечивает 4-битное кэширование KV для агентов с большим контекстом, снижая время до первого токена на 3,47 раза в поздних раундах и увеличивая пропускную способность вывода на 1,63 раза по сравнению с базовым вариантом FP8 KV. Для достижения этого используется FP8 запросы, FP4 тензоры KV, масштабы группы UE8M0, а также встроенная операция scaled-MFMA на GPU AMD CDNA4, с оптимизациями для ядер декодирования-внимания и надежными выборами, такими как асимметричное обращение K/V и вращение по Walsh-Hadamard.

arxiv arXiv cs.AI · 13 д назад

Оптимальный порядок в рамке многоагентных систем

Новая рамка анализирует многоагентные системы, моделируя влияние агентов и функции их реакции. Она выводит макроскопические свойства, такие как мощность, энтропия и порядок, и определяет оптимальный уровень синхронизации, который балансирует производительность, стабильность и адаптивность. Исследование показывает, что порядок и свойства системы зависят от задачи и контекста.

arxiv arXiv cs.AI · 13 д назад

Передача предвзятости оценщиков в системах мультиагентных языковых моделей

Contagion Networks представляет рамку для измерения того, как предвзятости оценщиков распространяются среди агентов языковых моделей. В эксперименте с тремя агентами предвзятости распространялись стабильно с коэффициентами заражения от 0,157 до 0,352, и агенты однородных моделей показали значительно меньшую передачу по сравнению с кросс-модельными настройками. Увеличение размера комитета оценщиков от k=1 до k=3 снизило эффективную передачу на 72,4%.

arxiv arXiv cs.AI · 13 д назад

Калибровка без понимания в обнаружении уязвимостей в LLM

CWE-Trace оценивает восемь прямых и 15 LoRA-настроенных LLM на обнаружении уязвимостей в ядре Linux. Результаты показывают, что заражение данными не дает преимущества, а настройка только сдвигает пороги вывода без изменения политики принятия решений. Несмотря на улучшение показателей обнаружения, LLM не обладают надежным безопасным мышлением, при этом точность по CWE на первом месте составляет менее 1,3%, а бинарная производительность обнаружения достигает 52,1%.

arxiv arXiv cs.AI · 13 д назад

FreeStyle: масштабируемое генерирование двойных ссылок через извлечение сообщественных LoRAs

FreeStyle предлагает рамку, которая извлекает сообщественные LoRAs для генерации масштабных троек изображений с двумя ссылками — стилем и содержанием. В ней используется двухэтапная куррикулярная система с механизмами разъединения, чтобы подавить утечку стиля, и вводится бенчмарк с оценками, не зависящими от стиля и основанными на ВЛМ, для оценки сохранения содержания и отклонения утечки стиля.

arxiv arXiv cs.AI · 13 д назад

Как безопасные LLM интерпретируют смешанные демонстрации соблюдения

Исследования показывают, что добрые и вредные демонстрации соблюдения не являются взаимозаменяемыми в LLM. Добрые демонстрации могут либо снизить, либо увеличить вредные демонстрации в зависимости от модели, при этом оптимизация предпочтений играет ключевую роль в предотвращении вредных демонстраций. Порядок демонстраций показывает сильную предпочтительность последних элементов, и модели различаются по способности обрабатывать отказ в процессе обучения в контексте.

arxiv arXiv cs.AI · 13 д назад

Эффективная и надежная вероятностная проверка для агентов ИИ

Новый фреймворк обеспечивает безопасную вероятностную проверку политик для агентов ИИ в неопределенных средах. Он использует распределенно устойчивую оптимизацию для вычисления строгих верхних оценок вероятности нарушения политик без предположения независимости предикатов. Метод превосходит предыдущие подходы на бенчмарках для агентов-конечных и вызова инструментов, улучшая баланс между безопасностью и полезностью.

arxiv arXiv cs.AI · 13 д назад

Multi-LCB: Расширение LiveCodeBench до 12 языков программирования

Multi-LCB расширяет LiveCodeBench до двенадцати языков программирования, сохраняя его меры контроля за загрязнением и протокол оценки. Оно выявляет переобучение Python, языковые предвзятости и значительные разрывы в производительности между LLM на разных языках, устанавливая строгий стандарт для генерации кода на разных языках.

arxiv arXiv cs.AI · 13 д назад

FlowEdit: долгосрочная адаптация произношения в модели Flow-Matching TTS

FlowEdit позволяет адаптировать исправления произношения в замороженных моделях flow-matching TTS с течением времени с помощью скрытых редакций в векторных представлениях текста. Оно хранит исправления в современной сети Хопфилда и извлекает их с помощью мягкой внимательности с воротником схожести, снижая ошибки фонем на 92,7% при 312 многоречевых собственных имен, при этом сохраняя качество общего речевого произношения. Время выполнения исправлений составляет около 15 секунд на одном GPU.

arxiv arXiv cs.AI · 13 д назад

Совершенно самостоятельный брокер исполнения для агентного управления с сертифицированными сертификатами

Совершенно самостоятельный брокер исполнения (SEB) вводит границу выполнения в реальном времени, которая проверяет и исполняет сертифицированные полномочия в системах на основе агентов. Он проверяет контракты о выполнении, проверяет сроки действия и обеспечивает соблюдение политик до вызова API инфраструктуры, предоставляя кратковременную, аудитируемую и отзываемую возможность выполнения. Прототип был оценен на AWS и Kubernetes, измеряя задержку, распространение отзыва и устойчивость к введению сбоев.

arxiv arXiv cs.AI · 13 д назад

SARLO-80: Высокоразрешающий SAR-оптический-текстовый набор данных выпущен

SARLO-80 — это масштабный набор данных, объединяющий очень высокоразрешающие SAR SLC-изображения, выровненные оптические изображения и естественные языковые описания. В него включены 119 566 троек из 2 500 глобальных сцен в 72 странах, стандартизированных на сетку 80 см в сланцевом диапазоне с пиксельным выравниванием и тремя вариантами описаний. Набор данных доступен в открытом доступе на Hugging Face для многомодальных задач обучения в исходной SAR геометрии.