Все статьи
media r/LocalLLaMA · 12 д назад

SupraLabs выпустил модель SupraVL-Nano-900k для обработки изображений и языка

SupraLabs представил модель SupraVL-Nano-900k, полностью прозрачную модель из 900 тысяч параметров, обученную с нуля на наборе Flickr8k. Модель включает в себя CNN-энкодер, декодер стиля GPT-2 и метод объединения с помощью префикса, все компоненты которой полностью документированы и разработаны с целью образовательной ясности.

arxiv arXiv cs.AI · 12 д назад

FreeStyle: масштабируемое генерирование двойных ссылок через извлечение сообщественных LoRAs

FreeStyle предлагает рамку, которая извлекает сообщественные LoRAs для генерации масштабных троек изображений с двумя ссылками — стилем и содержанием. В ней используется двухэтапная куррикулярная система с механизмами разъединения, чтобы подавить утечку стиля, и вводится бенчмарк с оценками, не зависящими от стиля и основанными на ВЛМ, для оценки сохранения содержания и отклонения утечки стиля.

arxiv arXiv cs.AI · 12 д назад

Как безопасные LLM интерпретируют смешанные демонстрации соблюдения

Исследования показывают, что добрые и вредные демонстрации соблюдения не являются взаимозаменяемыми в LLM. Добрые демонстрации могут либо снизить, либо увеличить вредные демонстрации в зависимости от модели, при этом оптимизация предпочтений играет ключевую роль в предотвращении вредных демонстраций. Порядок демонстраций показывает сильную предпочтительность последних элементов, и модели различаются по способности обрабатывать отказ в процессе обучения в контексте.

arxiv arXiv cs.AI · 12 д назад

Эффективная и надежная вероятностная проверка для агентов ИИ

Новый фреймворк обеспечивает безопасную вероятностную проверку политик для агентов ИИ в неопределенных средах. Он использует распределенно устойчивую оптимизацию для вычисления строгих верхних оценок вероятности нарушения политик без предположения независимости предикатов. Метод превосходит предыдущие подходы на бенчмарках для агентов-конечных и вызова инструментов, улучшая баланс между безопасностью и полезностью.

arxiv arXiv cs.AI · 12 д назад

Multi-LCB: Расширение LiveCodeBench до 12 языков программирования

Multi-LCB расширяет LiveCodeBench до двенадцати языков программирования, сохраняя его меры контроля за загрязнением и протокол оценки. Оно выявляет переобучение Python, языковые предвзятости и значительные разрывы в производительности между LLM на разных языках, устанавливая строгий стандарт для генерации кода на разных языках.

arxiv arXiv cs.AI · 12 д назад

FlowEdit: долгосрочная адаптация произношения в модели Flow-Matching TTS

FlowEdit позволяет адаптировать исправления произношения в замороженных моделях flow-matching TTS с течением времени с помощью скрытых редакций в векторных представлениях текста. Оно хранит исправления в современной сети Хопфилда и извлекает их с помощью мягкой внимательности с воротником схожести, снижая ошибки фонем на 92,7% при 312 многоречевых собственных имен, при этом сохраняя качество общего речевого произношения. Время выполнения исправлений составляет около 15 секунд на одном GPU.

arxiv arXiv cs.AI · 12 д назад

Совершенно самостоятельный брокер исполнения для агентного управления с сертифицированными сертификатами

Совершенно самостоятельный брокер исполнения (SEB) вводит границу выполнения в реальном времени, которая проверяет и исполняет сертифицированные полномочия в системах на основе агентов. Он проверяет контракты о выполнении, проверяет сроки действия и обеспечивает соблюдение политик до вызова API инфраструктуры, предоставляя кратковременную, аудитируемую и отзываемую возможность выполнения. Прототип был оценен на AWS и Kubernetes, измеряя задержку, распространение отзыва и устойчивость к введению сбоев.

arxiv arXiv cs.AI · 12 д назад

SARLO-80: Высокоразрешающий SAR-оптический-текстовый набор данных выпущен

SARLO-80 — это масштабный набор данных, объединяющий очень высокоразрешающие SAR SLC-изображения, выровненные оптические изображения и естественные языковые описания. В него включены 119 566 троек из 2 500 глобальных сцен в 72 странах, стандартизированных на сетку 80 см в сланцевом диапазоне с пиксельным выравниванием и тремя вариантами описаний. Набор данных доступен в открытом доступе на Hugging Face для многомодальных задач обучения в исходной SAR геометрии.

arxiv arXiv cs.AI · 12 д назад

DeepSWIP: контрфактальное мышление в нейронной вероятностной логике

DeepSWIP вводит односветовое контрфактальное семантическое представление для DeepProbLog, позволяя проводить причинные рассуждения через нейронную материализацию и взвешенное моделирование. Оно обеспечивает точное вычисление при конечной грундинге и предположении о единственном поддерживаемом моделировании, эксперименты показывают ускорение в 2,14 раза и улучшенную калибровку по сравнению с оценщиками DeepTwin и AIPW.

arxiv arXiv cs.AI · 12 д назад

LedgerAgent: структурированный статус для агентов вызова инструментов, соблюдающих политику

LedgerAgent вводит структурированный журнал для поддержания состояний задач отдельно в агентах вызова инструментов. Он превращает состояния в промпты и обеспечивает соблюдение политических ограничений до выполнения инструмента, что снижает нарушения политики и улучшает производительность в областях обслуживания клиентов.

arxiv arXiv cs.AI · 12 д назад

Перекрестное внимание по атрибуции для стиля-описательного текста-к-голосу

Новая методика адаптирует DAAM к моделям диффузии речи, анализируя, как стилизующие подписи влияют на волны ТТС. Она показывает, что стилизующие токены имеют меньшую временну дисперсию, чем содержательные токены, при этом внимание к стилю коррелирует с интонацией и энергией, а пик стилизации происходит на ранних слоях, где энтропия внимания минимизируется, что указывает на максимальную селективность.

arxiv arXiv cs.AI · 12 д назад

Калибровка в моделях на основе смеси экспертов при смещении распределения

Эта статья исследует, как модели на основе смеси экспертов сохраняют калибровку при смещении распределения. Авторы показывают, что калибровка на уровне экспертов обеспечивает общую калибровку в моделях с жестким маршрутизацией, но недостаточна для моделей с мягким маршрутизацией. Авторы предлагают противоречивую пересадку, чтобы штрафовать ошибки калибровки в маршрутизированных агрегатах, улучшая баланс между точностью и калибровкой при различных задачах и смещениях.

arxiv arXiv cs.AI · 12 д назад

G2Rec: Единая платформа для генеративных рекомендаций

G2Rec представляет масштабируемую платформу, которая объединяет целостную графовую модель совместного взаимодействия пользователей и семантическую токенизацию. Она позволяет генеративным моделям рекомендаций выявлять всесторонние, семантически обоснованные прототипы интересов пользователей без использования истинных интересов пользователей, превосходя существующие методы в масштабных последовательных рекомендациях на промышленном уровне.

arxiv arXiv cs.AI · 12 д назад

На сколько прозрачна DiffusionGemma?

DiffusionGemma имеет плохую прозрачность переменных из-за высокой степени прозрачности последовательности, но это может быть уменьшено за счёт интерпретируемого барьера токенов, снижая глубину последовательности до 1,1 раза глубины Gemma 4. Алгоритмическая прозрачность в моделях диффузии является более сложной из-за динамических предсказаний токенов, с ранними доказательствами нехронологического мышления, размытия токенов и мышления в промежуточном контексте. DiffusionGemma показан как сопоставимо прозрачный по сравнению с Gemma 4.

arxiv arXiv cs.LG · 13 д назад

FedMGS: Федеративное модальность-осознанное синтезирование графа для несбалансированного многомодального обучения

FedMGS решает проблемы несбалансированности модальностей на уровне клиентов и узлов в федеративном обучении графов, синтезируя скрытые семантические представления. Оно интегрирует доступность-осознанного граф-энкодера, синтезатор семантики с использованием прототипов и механизм объединения с калибровкой надежности для восстановления отсутствующих модальностей при сохранении семантической синхронизации. Эксперименты показывают, что FedMGS обеспечивает рост производительности до 17,41% по сравнению с базовыми методами на четырех задачах.

arxiv arXiv cs.LG · 13 д назад

Разнообразие стиля превосходит разнообразие тем в синтезированных данных без аннотации

Новая система генерирует синтезированные диалоги без использования аннотированных данных от человека, используя только определения намерений. В ней включены атрибуты тем и стиля, а также модели пост-обработки стиля Univ и Exam, и процесс фильтрации с помощью языковой модели как судьи. Результаты показывают достижение до 93,3% эффективности по сравнению с аннотированными данными человека, что подтверждает, что разнообразие стиля является более важным, чем разнообразие тем, для полезности данных.

arxiv arXiv cs.LG · 13 д назад

Прямая оценка выгоды для частично наблюдаемых областей

Прямая оценка выгоды (DAE) расширяется на частично наблюдаемые области с минимальными изменениями. Дискретная модель скрытых динамик снижает вычислительную нагрузку за счёт эффективного приближения вероятностей переходов, что позволяет использовать масштабируемую и эффективную по образцам глубинную робастную обучение в пространствах высокой размерности наблюдений.

arxiv arXiv cs.LG · 13 д назад

Легкая защита от введения ложных данных в сети электроснабжения

Новая защитная система повышает устойчивость глубоких нейронных сетей к атакам введения ложных данных в сетях электроснабжения за счет добавления слоя заполнения с псевдопараметрами, полученными из статистических распределений входных данных. Такой легкий, универсальный подход увеличивает размерность входных данных случайным, данных-ориентированным способом, делая враждебные возмущения непереносимыми и непредсказуемыми, тем самым эффективно противодействуя атакам без снижения производительности.

arxiv arXiv cs.LG · 13 д назад

Временные вложения не нужны в моделях диффузии

Исследование показывает, что модели диффузии могут достигать глобальных минимумов без явных временных вложений. Исследования с использованием методов исключения на данных CelebA и CIFAR-10 показывают, что временно-независимые модели сохраняют высокую точность и превосходят модели с условием по FID, точности и полноте.