Источник · arXiv cs.LG
arxiv arXiv cs.LG · 9 д назад

HABC улучшает RL-настройку VLAs с разреженными результатами

Hierarchical Advantage-Weighted Behavior Cloning (HABC) улучшает онлайн-RL-настройку агентов визуально-языковых систем за счёт использования отдельных критических голов для жизнеспособности и эффективности. Оно объединяет их выходы через состояние-адаптивный воротник и применяет веса на переходе, при этом интервенция-ориентированная присвоение кредитов предотвращает утечку контроля. В реальных экспериментах с роботами HABC повышает показатели успеха до 92%, 88% и 38% на трёх бимануальных задачах, превосходя базовые значения SFT на 36%, 44% и 12%.

arxiv arXiv cs.LG · 9 д назад

Геометрическая модель действий для обучения политик роботов

Геометрическая модель действий (GAM) позволяет политикам роботов мыслить о трехмерных физических взаимодействиях, перепрограммируя предобученную геометрическую основную модель. GAM разделяет GFM на наблюдательный кодировщик и предиктор причинно-следственных будущих состояний, затем направляет предсказанные будущие геометрические формы и действия через один и тот же основной слой, обеспечивая точные, устойчивые и эффективные результаты в манипуляции в симуляции и на реальных роботах.

arxiv arXiv cs.LG · 9 д назад

KVEraser: Эффективное локальное удаление контекста в LLMs

KVEraser обеспечивает эффективное локальное удаление контекста в больших языковых моделях, заменяя только состояния кэша KV для удаленного участка на обученные направляющие состояния. Оно достигает почти полной переработки производительности на задачах в области применения и обеспечивает рост задержки на 24% по сравнению с ростом задержки в 17,6 раз при полной переработке, с увеличением скорости до 3--4 раз на задачах по вопросам длинных документов.

arxiv arXiv cs.LG · 9 д назад

Атака RING: использование дифференциальной конфиденциальности в распределённом обучении для скрытия сигналов бэкдора

Новая атака RING использует дифференциальную конфиденциальность в распределённом обучении для скрытия сигналов бэкдора при максимизации их воздействия. Она достигает 90,3% успешности атаки против передовых защит, что на 26,08 раз превышает базовые методы, и выявляет критическую уязвимость в DP-FL из-за встроенной маскировки вредоносных обновлений.

arxiv arXiv cs.LG · 9 д назад

Фаза в нейронных представлениях: внутренний тест Оппенгейма-Лима

Классификаторы изображений, такие как PRISM2D, GFNet и ViT-B/16, показывают, что фаза, а не модуль, определяет предсказания в скрытых слоях. ResNet-50 выявляет скрытый код знака в поздних блоках, что указывает на существование идентичности фазы/знака во всех архитектурах, хотя она выражается по-разному из-за механизмов активации и выдачи результатов.

arxiv arXiv cs.LG · 9 д назад

Точная оценка постериорного скоора для линейных обратных задач

В статье получена точная постериорная оценка в закрытой форме для линейных гауссовых обратных задач, что позволяет эффективно осуществлять выборку постериоров с помощью дезактивации. Вводится точная постериорная оценка (EPS), цель обучения, которая сохраняет структуру предобучения и обеспечивает превосходную производительность по метрикам точности, восприятию и распределения с меньшим числом оценок дезактиватора по сравнению с градиентными методами.

arxiv arXiv cs.LG · 9 д назад

HAMON: Пассивная оптическая система прогнозирования

HAMON использует пассивную оптическую дифракцию для генерации прогнозов и превосходит цифровые базовые модели по ETTm2 на всех горизонтах и по ETTh2 на всех горизонтах, кроме самого длинного. Оно достигает на 14% меньшей ошибки MSE и работает без тренируемой цифровой смеси, опираясь вместо этого на физическое распространение оптических волн.