NVIDIA — korshunov.ai — новости ML

Лаборатория · NVIDIA

Исследование оценивает классификацию нагрузки на GPU с использованием только мониторинга NVML с нулевым влиянием. Классификатор достигает точности 98,2% при идентификации нагрузок на обучение и точности от 43 до 87% при распознавании неожиданных, враждебно скрытых нагрузок на 9 моделей GPU.

arxiv arXiv cs.LG · 9 д назад

Геометрическая модель действий для обучения политик роботов

Геометрическая модель действий (GAM) позволяет политикам роботов мыслить о трехмерных физических взаимодействиях, перепрограммируя предобученную геометрическую основную модель. GAM разделяет GFM на наблюдательный кодировщик и предиктор причинно-следственных будущих состояний, затем направляет предсказанные будущие геометрические формы и действия через один и тот же основной слой, обеспечивая точные, устойчивые и эффективные результаты в манипуляции в симуляции и на реальных роботах.

arxiv arXiv cs.LG · 7 д назад

FoMoE преодолевает порог полных копий с помощью разделенных экспертных слоев

FoMoE представляет систему, которая распределяет экспертные слои между рабочими узлами, чтобы избежать полных копий модели, снижая затраты на коммуникацию на 1,42 раза по сравнению с базовыми вариантами и на 45,44 раза по сравнению с DDP. Система достигает увеличения производительности до 1,4 раза за счёт механизма пропуска токенов и демонстрирует стабильную маршрутизацию, с прогнозируемыми преимуществами, распространяющимися на модели масштаба 100B, за счёт системного моделирования.

arxiv arXiv cs.AI · 7 д назад

FoMoE преодолевает порог полных копий с помощью разделенных экспертиз слоев

FoMoE представляет систему, которая распределяет экспертизные слои между рабочими, чтобы избежать полных копий модели, снижая затраты на коммуникацию до 1,42 раза по сравнению с эффективными базовыми вариантами и до 45,44 раза по сравнению с DDP. Система достигает увеличения производительности до 1,4 раза за счёт механизма пропуска токенов и демонстрирует стабильную маршрутизацию, с прогнозируемыми преимуществами, распространяющимися на модели масштаба 100B, за счёт системного моделирования.

arxiv arXiv cs.LG · 8 д назад

Продолжительность работы как уменьшающийся капитал в памяти робота

Память на флеш-накопителе робота деградирует с каждой записью, образуя необновляемый актив. Модель цен, учитывающая износ, использует теневой ценовой коэффициент $η$ для руководства размещением памяти между ОЗУ, НВМ и облаком, при оптимальной маршрутизации зависит от того, растёт ли значение задачи с сохранением памяти. Знак ассоциации между значением и записью $χ$ варьируется в зависимости от развертывания: положительный при долгосрочном управлении, нулевой при краткосрочных задачах и отрицательный при телеманипуляции. Ограничение бюджета износа действует только на низкокачественные памяти QLC/eMMC, и хотя маршрутизация с учётом износа согласуется с задачевым значением, реальные улучшения производительности остаются не подтверждёнными в данных.

arxiv arXiv cs.LG · 8 д назад

MGUP: Моментум-Градиентное Согласование для Селективной Оптимизации

MGUP вводит механизм селективного обновления, при котором применяются большие шаги обновления к фиксированному проценту параметров в стохастической оптимизации, в то время как остальные параметры обновляются с меньшими, ненулевыми шагами. MGUP интегрируется без проблем с оптимизаторами, такими как AdamW, Lion и Muon, обеспечивая теоретические гарантии сходимости для MGUP-AdamW и демонстрируя превосходную или более стабильную производительность при обучении больших языковых моделей и задачах предобучения MAE.

arxiv arXiv cs.LG · 8 д назад

AoiZora: оптимизация автоматического параллелизма с учётом топологии для инференса диффузии видео

AoiZora — это планировщик топологии, реализованный на уровне компиляции, который повышает скорость инференса диффузии видео с низкой задержкой на подсрезах ТПУ. Благодаря синхронизации логического разбиения с физическим размещением в процессе компиляции, AoiZora снижает задержку одного шага деноизирования на подсрезах ТПУ v5e до 1,42 раза по сравнению с существующими методами.

arxiv arXiv cs.AI · 8 д назад

Продолжительность работы флеш-памяти как износа капитала в памяти робота

Продолжительность работы флеш-памяти робота является невозобновляемым активом, который изнашивается при каждом записи. Модель цен с учетом износа вводит теневую цену η, чтобы направлять размещение памяти между ОЗУ, НВМ и облаком, при этом оптимальное направление зависит от ассоциации значения-записи χ. Эмпирические измерения показывают, что χ положительна при долгосрочных манипуляциях, равна нулю при коротких задачах и отрицательна при телеманипуляции, и бюджет износа является ограничивающим только для низкокачественных памятей QLC/eMMC, где управление с учетом износа влияет на направление, основываясь на значении задачи, без улучшения производительности.

arxiv arXiv cs.LG · 9 д назад

TokenPilot: Эффективное управление контекстом для агентов LLM

TokenPilot снижает расходы на инференс на 61% до 87% как в изолированном, так и в непрерывном режимах, превосходя предыдущие системы по эффективности расходов, при этом сохраняя конкурентную производительность. Оно использует сжатие, учитывающее ввод, и эвакуацию, учитывающую жизненный цикл, для стабилизации промптов и эффективного управления сегментами контекста.

Нулевое влияние на мониторинг выявляет скрытые тренировки машинного обучения

Геометрическая модель действий для обучения политик роботов

FoMoE преодолевает порог полных копий с помощью разделенных экспертных слоев

FoMoE преодолевает порог полных копий с помощью разделенных экспертиз слоев

Продолжительность работы как уменьшающийся капитал в памяти робота

MGUP: Моментум-Градиентное Согласование для Селективной Оптимизации

AoiZora: оптимизация автоматического параллелизма с учётом топологии для инференса диффузии видео

Продолжительность работы флеш-памяти как износа капитала в памяти робота

TokenPilot: Эффективное управление контекстом для агентов LLM