Все статьи
arxiv arXiv cs.LG · 13 д назад

FedMGS: Федеративное модальность-осознанное синтезирование графа для несбалансированного многомодального обучения

FedMGS решает проблемы несбалансированности модальностей на уровне клиентов и узлов в федеративном обучении графов, синтезируя скрытые семантические представления. Оно интегрирует доступность-осознанного граф-энкодера, синтезатор семантики с использованием прототипов и механизм объединения с калибровкой надежности для восстановления отсутствующих модальностей при сохранении семантической синхронизации. Эксперименты показывают, что FedMGS обеспечивает рост производительности до 17,41% по сравнению с базовыми методами на четырех задачах.

arxiv arXiv cs.LG · 13 д назад

Разнообразие стиля превосходит разнообразие тем в синтезированных данных без аннотации

Новая система генерирует синтезированные диалоги без использования аннотированных данных от человека, используя только определения намерений. В ней включены атрибуты тем и стиля, а также модели пост-обработки стиля Univ и Exam, и процесс фильтрации с помощью языковой модели как судьи. Результаты показывают достижение до 93,3% эффективности по сравнению с аннотированными данными человека, что подтверждает, что разнообразие стиля является более важным, чем разнообразие тем, для полезности данных.

arxiv arXiv cs.LG · 13 д назад

Прямая оценка выгоды для частично наблюдаемых областей

Прямая оценка выгоды (DAE) расширяется на частично наблюдаемые области с минимальными изменениями. Дискретная модель скрытых динамик снижает вычислительную нагрузку за счёт эффективного приближения вероятностей переходов, что позволяет использовать масштабируемую и эффективную по образцам глубинную робастную обучение в пространствах высокой размерности наблюдений.

arxiv arXiv cs.LG · 13 д назад

Легкая защита от введения ложных данных в сети электроснабжения

Новая защитная система повышает устойчивость глубоких нейронных сетей к атакам введения ложных данных в сетях электроснабжения за счет добавления слоя заполнения с псевдопараметрами, полученными из статистических распределений входных данных. Такой легкий, универсальный подход увеличивает размерность входных данных случайным, данных-ориентированным способом, делая враждебные возмущения непереносимыми и непредсказуемыми, тем самым эффективно противодействуя атакам без снижения производительности.

arxiv arXiv cs.LG · 13 д назад

Временные вложения не нужны в моделях диффузии

Исследование показывает, что модели диффузии могут достигать глобальных минимумов без явных временных вложений. Исследования с использованием методов исключения на данных CelebA и CIFAR-10 показывают, что временно-независимые модели сохраняют высокую точность и превосходят модели с условием по FID, точности и полноте.

arxiv arXiv cs.LG · 13 д назад

DeepGaLA: нейронные заменители с неопределенностью для обратных задач в дифференциальных уравнениях

DeepGaLA — это нейронная сеть-заместитель, обеспечивающая прогнозы с учетом неопределенности для обратных задач в дифференциальных уравнениях. Он обеспечивает точность, сравнимую с гауссовыми процессами-заместителями, при сохранении эффективности в высокомерных пространствах параметров и учете дифференциальных уравнений.

arxiv arXiv cs.LG · 13 д назад

Механическое исследование сохранения представлений в непрерывном обучении

Синтетическая рамка показывает, что суперпозиция увеличивается со временем с кратковременными падениями на границах задач, что указывает на интерференцию, специфичную для границ. Более высокая спарсность признаков способствует суперпозиции без неизбежного забвения, при условии, что сила представлений сохраняется. Уровень эффективности ранга на уровне задач растет с ростом спарсности, что демонстрирует более широкое использование возможностей при спарсных условиях.

arxiv arXiv cs.LG · 13 д назад

HEPTv2: Эффективный конечный трансформатор для реконструкции заряженных частиц

HEPTv2 достигает эффективности отслеживания 98,6% с уровнем ложных срабатываний 0,8% на TrackML, используя только 15 мс времени инференса и 0,4 ГБ памяти на событие. Он превосходит предыдущие трансформаторные и графовые методы по эффективности и снижает задержку в 7 и 38–52 раза соответственно, что позволяет проводить реконструкцию частиц в реальном времени на HL-LHC.

arxiv arXiv cs.LG · 13 д назад

Двухэтапная эволюционная оптимизация гиперпараметров для PINNs

Двухэтапная эволюционная стратегия повышает производительность физически обусловленных нейронных сетей за счет предварительного отбора кандидатов гиперпараметров с помощью низкокачественной тренировки, а затем уточнения лучших кандидатов с помощью градиентной оптимизации. Метод значительно снижает среднюю ошибку при решении задач для уравнений адвекции, Клинга-Гордона и Гельмгольца при фиксированных вычислительных ресурсах.

arxiv arXiv cs.LG · 13 д назад

Топологический анализ данных для мониторинга процессов в реальном времени

Новый метод объединяет топологический анализ данных и машинное обучение для мониторинга высокомерных динамических процессов. Он представляет временные ряды как многообразия, использует топологические характеристики для описания структуры и применяет нейронные обыкновенные дифференциальные уравнения для моделирования динамического развития. Подход эффективно обнаруживает разнообразные события в промышленных данных процессов и превосходит альтернативы на основе реконструкции и на основе траекторий.

arxiv arXiv cs.LG · 13 д назад

SSH-Net: Глубокая сеть для прогнозирования времени отказа при конкурирующих рисках

SSH-Net — это структурированная глубокая нейронная сеть, предназначенная для прогнозирования функций распределения времени отказа при конкурирующих рисках. Она использует отдельные подсети для различных групп ковариат, повышая точность за счёт сопоставления структуры нейронной сети с иерархией данных. Модель проверяется с помощью симуляционных исследований и применяется к данным о сбоях GPU Titan.

arxiv arXiv cs.LG · 13 д назад

Переиспользование классификатора речи для генерации на основе диффузии

Предварительно обученный классификатор речи переиспользуется как основа для генерации речи на основе диффузии. При присоединении легкого подсети и обучении ее методом сопоставления сценария устранения шума, подход достигает высокого качества речи при снижении памяти и вычислительных затрат, используя один модель вместо двух отдельно обученных компонентов.

arxiv arXiv cs.LG · 13 д назад

Устранение предвзятости при ограничениях на покрытие и цена справедливости

Новый подход решает проблему предвзятости в машинном обучении, вводя ограничения на покрытие для обеспечения достаточной представленности пересекающихся подгрупп. Он компромиссно устраняет малые ошибки предвзятости за счет повышения эффективности данных и формулирует устранение предвзятости как целочисленную линейную задачу, характеризуя цену справедливости в виде функции от допуска на справедливость для руководства по управлению данными и соответствию законодательству.

arxiv arXiv cs.LG · 13 д назад

Агентный символический поиск для характеристики решений уравнений в частных производных

ASYS предлагает рамку с предварительным руководством, которая использует математическую теорию и эволюционный поиск для генерации интерпретируемых символических форм решений уравнений в частных производных. Оно создает аналитические представления для сложных задач, таких как динамика Альлена-Кэна и взрыв в модели Келлера-Сегеля, предлагая новые пути для математического анализа за пределами традиционных методов.

arxiv arXiv cs.LG · 13 д назад

Римановская острота объясняет предвзятость SGD к плоским минимумам

Этот исследовательский проект вводит римановскую остроту — инвариантную по перепараметризации меру плоскости, основанную на геометрии матрицы информационной функции Фишера. В нем доказывается, что стационарное распределение SGD сконцентрировано в римановых плоских минимумах, и связывается эта геометрическая предвзятость с обобщением через границу PAC-Bayes. Эксперименты на MNIST и CIFAR-10 показывают, что римановская острота лучше отражает обобщение, чем евклидова острота, с масштабированием, согласующимся с теорией.

arxiv arXiv cs.LG · 13 д назад

UltraQuant: 4-битное кэширование KV для агентов с большим контекстом

UltraQuant представляет метод 4-битного кэширования KV, разработанный специально для рабочих нагрузок агентов с большим контекстом. Он обеспечивает сокращение времени до первого токена на поздних этапах на 3,47 раза и увеличение пропускной способности вывода на 1,63 раза по сравнению с кэшированием KV в формате FP8, используя запросы в формате FP8, тензоры KV в формате FP4 и поддержку native AMD CDNA4 scaled-MFMA.

arxiv arXiv cs.LG · 13 д назад

Сбор межгруппового преимущества для самоэволюции агентов, основанных на памяти

В этой статье представлено Межгрупповое накопление преимуществ (MAA), архитектуру постобработки, которая решает проблему несогласованности между группами в самоэволюции агентов, основанных на памяти. MAA формализует сопоставимость и согласованность как структурные условия, использует дифференциальные сигналы и экспоненциальное скользящее среднее для накопления знаковых доказательств на операции, и обеспечивает отслеживаемость за счёт слияния семантических идентификаторов. В 14 из 16 случаев MAA превосходит базовые решения на уровне групп и снижает потребление токенов на 75%.

arxiv arXiv cs.LG · 13 д назад

Датасет RefRad2D обеспечивает масштабируемую пространственную сопоставимость в рентгенологии

RefRad2D — это масштабный билингвальный датасет из 1,2 млн пар изображений КТ и МРТ и текстов из клинической практики. Обученный на этом данных, RadGrounder достигает конкурентоспособных результатов в задачах визуального вопроса-ответа и генерации отчётов, при этом сохраняет качество языка за счёт сопоставления пространственных элементов без снижения производительности.

arxiv arXiv cs.LG · 13 д назад

Совмещение LLM с использованием скрытой обратной связи пользователя

Новый набор данных IFLLM собирает данные о перемещении мыши и взгляде пользователя при взаимодействии с LLM. Он показывает, что скрытая обратная связь значительно улучшает выравнивание LLM, повышая точность текстовых моделей вознаграждения с 55% до 64% и почти втрое увеличивая качество ответов после обучения DPO на восьми LLM.