Лаборатория · NVIDIA
arxiv arXiv cs.AI · 6 д назад

UltraQuant: 4-бит кэширование KV для агентов с большим контекстом

UltraQuant обеспечивает 4-битное кэширование KV для агентов с большим контекстом, снижая время до первого токена на 3,47 раза в поздних раундах и увеличивая пропускную способность вывода на 1,63 раза по сравнению с базовым вариантом FP8 KV. Для достижения этого используется FP8 запросы, FP4 тензоры KV, масштабы группы UE8M0, а также встроенная операция scaled-MFMA на GPU AMD CDNA4, с оптимизациями для ядер декодирования-внимания и надежными выборами, такими как асимметричное обращение K/V и вращение по Walsh-Hadamard.

arxiv arXiv cs.LG · 6 д назад

UltraQuant: 4-битное кэширование KV для агентов с большим контекстом

UltraQuant представляет метод 4-битного кэширования KV, разработанный специально для рабочих нагрузок агентов с большим контекстом. Он обеспечивает сокращение времени до первого токена на поздних этапах на 3,47 раза и увеличение пропускной способности вывода на 1,63 раза по сравнению с кэшированием KV в формате FP8, используя запросы в формате FP8, тензоры KV в формате FP4 и поддержку native AMD CDNA4 scaled-MFMA.

arxiv arXiv cs.LG · 6 д назад

Метод probe-and-refine улучшает производительность код-агента

Новый метод, называемый probe-and-refine tuning, использует синтетические пробы исправления ошибок для итеративного улучшения файлов руководства репозитория с помощью одноразовых вызовов LLM, без циклов агентов или использования инструментов. На SWE-bench Verified он достигает среднего коэффициента разрешения 33,0% — на 14,5 процентных пункта выше начального статического базового знания — что свидетельствует о расширении охвата, а не точности исправлений. Метод позволяет агентам эффективно использовать большие бюджеты шагов, и производительность остается стабильной при различных моделях, при наличии достаточного диагностического вывода.

arxiv arXiv cs.LG · 6 д назад

Капсулы состояния выполнения для низкозадержанного выполнения ИИ на устройстве

Капсулы состояния выполнения позволяют производить контрольные точки и восстановление полного состояния выполнения графа, включая состояния КВ, рекуррентные и конволюционные, что обеспечивает низкую задержку и эффективное выполнение небольших пакетов на устройстве для ИИ. На RTX 5090 и Jetson AGX Thor восстановление капсулы обеспечивает точность на уровне байтов и идентичности токенов, с операциями на GPU менее миллисекунды и ускорением TTFT до 27x при 16k токенах, что демонстрирует значительное снижение задержки в интерактивных рабочих процессах ИИ.

arxiv arXiv cs.AI · 6 д назад

Настраивание моделей VLA требует меньше слоев, чем думалось

Модели вид-язык-действие демонстрируют серьезную слоевую редуndancy, несмотря на большое количество параметров. Метод сжатия без обучения, использующий центрированное ядерное выравнивание, удаляет парные слои, снижая глубину модели до 50% и позволяя ускорить обучение на 40-50% и инференс на до 30% без потери производительности, что подтверждено на симуляционных и реальных роботизированных задачах.

arxiv arXiv cs.AI · 6 д назад

CRAX: Быстрый безопасный бенчмарк для обучения с усилением

CRAX вводит высокоточный ускоренный бенчмарк безопасности для обучения с усилением с использованием MuJoCo XLA. Он достигает ускорения до 100 раз по сравнению с бенчмарками на процессоре за счёт векторизации и ускорения аппаратными средствами, включая шесть наборов сред и три задачи для агентов на трёх уровнях сложности. Оценка шести методов безопасного обучения с усилением показывает, что ни один подход не доминирует, что подчёркивает компромиссы между производительностью и безопасностью, при этом куррикулярное обучение и передача безопасности улучшают результаты.

arxiv arXiv cs.LG · 6 д назад

StreamKL: Быстрый и память-эффективный KL-разброс для дистилляции внимания

StreamKL вводит синтезированную GPU-примитив, которая устраняет квадратичное использование памяти в дистилляции внимания за счёт потока кусков запрос-ключ через внутреннюю память SRAM. Оно обеспечивает ускорение до 43 раз в прямом и до 14 раз в обратном проходе, снижая дополнительную площадь HBM от O(N_QN_K) до O(1), что позволяет проводить дистилляцию длинных контекстов на одном GPU.

arxiv arXiv cs.LG · 6 д назад

Pose6DAug: Физически обоснованный обмен объектами в многокамерном виде

Pose6DAug обеспечивает аугментацию данных для роботов путем обмена объектами в успешных сессиях, при этом сохраняя физически допустимые траектории 6D ориентации. Оно работает в 3D с использованием сетки, закрепленной за временно согласованными ориентациями, обеспечивая согласованность во множестве камер и физическую обоснованность. Тонкая настройка политики VLA на этом аугментированном данных повышает показатели успешного обнаружения новых объектов на 16,5% по сравнению с современными базовыми моделями.

arxiv arXiv cs.LG · 6 д назад

Генерируемые LLM-ядра GPU подвергаются иллюзии корректности

Оценки с использованием проверок фиксированной формы пропускают реальные ошибки в ядрах GPU, генерируемых LLM. Контролируемый корпус из 24 ядер, включающий 9 вариантов с ошибками транскрипции, показывает, что оракул, учитывающий схему операций, обнаруживает все сбои и проходит все корректные проверки, с одинаковыми результатами на пяти архитектурах GPU.

arxiv arXiv cs.LG · 6 д назад

CRAX: быстрая и безопасная оценка в области обучения с усилением

CRAX представляет высокоточную, быструю оценку безопасности в области обучения с усилением, используя MuJoCo XLA. Он обеспечивает ускорение до 100 раз по сравнению с оценками на процессоре за счёт векторизации и ускорения аппаратными средствами, включая шесть наборов сред и три задачи для агентов на трёх уровнях сложности. Оценка шести методов безопасного обучения с усилением показывает, что ни один подход не доминирует, подчёркивая компромиссы между производительностью и безопасностью, при этом куррикулярное обучение и передача безопасности улучшают результаты.

arxiv arXiv cs.LG · 7 д назад

Нулевое влияние на мониторинг выявляет скрытые тренировки машинного обучения

Исследование оценивает классификацию нагрузки на GPU с использованием только мониторинга NVML с нулевым влиянием. Классификатор достигает точности 98,2% при идентификации нагрузок на обучение и точности от 43 до 87% при распознавании неожиданных, враждебно скрытых нагрузок на 9 моделей GPU.

arxiv arXiv cs.LG · 9 д назад

Геометрическая модель действий для обучения политик роботов

Геометрическая модель действий (GAM) позволяет политикам роботов мыслить о трехмерных физических взаимодействиях, перепрограммируя предобученную геометрическую основную модель. GAM разделяет GFM на наблюдательный кодировщик и предиктор причинно-следственных будущих состояний, затем направляет предсказанные будущие геометрические формы и действия через один и тот же основной слой, обеспечивая точные, устойчивые и эффективные результаты в манипуляции в симуляции и на реальных роботах.

arxiv arXiv cs.AI · 16 ч назад

SmartSDG Pipeline Enhances Syn-to-Real Object Detection

Статья представляет SmartSDG — автоматизированную систему, использующую NVIDIA Isaac Sim и физически обоснованную шADING для оптимизации адаптации синтетических данных к реальным. В ней показано, что косвенное освещение и сложные фоновые условия улучшают обнаружение объектов за счёт сохранения текстур поверхностей и снижения ложноположительных результатов, превосходя традиционные синтетические данные под прямым освещением.

lab NVIDIA Technical Blog · 3 д назад

NVIDIA представляет Halos для робототехники: полносистемный функциональный системный подход

NVIDIA представил Halos для робототехники, полносистемный функциональный системный подход, предназначенный для физической ИИ. Он обеспечивает безопасность на основе ИИ в неструктурированных средах, где роботы работают автономно вместе с людьми в производственных помещениях, складах, больницах и домах.

media r/LocalLLaMA · 5 д назад

Устранение проблемы с длительными контекстами при декодировании на Radeon R9700 с использованием vLLM 0.22.1

Проблема с производительностью при длительных контекстах на AMD Radeon AI PRO R9700 (RDNA4) была решена в vLLM 0.22.1 путем включения AITER Unified Attention. Исправление включает ослабление гейта CDNA для включения RDNA4, отключение других реализаций внимания и использование KV-кэша в формате bf16, что обеспечивает значительное ускорение при всех длинах контекста. Использование FP8 на этом оборудовании неэффективно, а нативный контекст модели в размере 262K полностью достижим при использовании bf16, обеспечивая ~2.9× параллелизм без необходимости использования FP8.

arxiv arXiv cs.AI · 6 д назад

UFP4: Единая 4-битовая тренировка устраняет смещение сжатия в предварительной тренировке больших языковых моделей

Исследование выявляет смещение сжатия в форматах на основе E2M1 FP4 из-за геометрической асимметрии, что приводит к накоплению умножительной ошибки и нестабильности тренировки. Предложенная рецептура UFP4 использует единые сетки E1M2/INT4 и применяет случайный Хадамар-преобразование ко всем операциям GEMM, достигая меньшего снижения потерь по сравнению с базовыми вариантами на основе E2M1 в масштабной предварительной тренировке больших языковых моделей. Авторы рекомендуют E1M2/INT4 как первичный тренировочный примитив для будущих ускорителей.

arxiv arXiv cs.LG · 6 д назад

Переиспользование классификатора речи для генерации на основе диффузии

Предварительно обученный классификатор речи переиспользуется как основа для генерации речи на основе диффузии. При присоединении легкого подсети и обучении ее методом сопоставления сценария устранения шума, подход достигает высокого качества речи при снижении памяти и вычислительных затрат, используя один модель вместо двух отдельно обученных компонентов.

arxiv arXiv cs.AI · 6 д назад

Гибридная система ANN-SNN с локальной пластичностью

Гибридная система ANN-SNN использует предобученные энкодеры EfficientNet и преобразует их активации в импульсные последовательности с помощью кодирования скорости. Система обучает спайковый классификатор CoLaNET с локальными правилами пластичности, достигая точности 99,09% на тестовом наборе ImageNet из 64 классов, что соответствует традиционным глубоким сетям.

arxiv arXiv cs.AI · 6 д назад

Lagrange: Открытый словарный разреженный фреймворк для целостного управления автомобилем

Lagrange представляет открытый словарный, энергетический разреженный фреймворк для обобщённого целостного управления автомобилем. Он использует модели визуально-языковых моделей для генерации объектных предложений, не зависящих от класса, и кодирует их в непрерывные семантические токены, обеспечивая устойчивое обобщение на аномальные сценарии, при этом соблюдая кинематику автомобиля за счёт минимизации лагранжевой действия.

media r/LocalLLaMA · 6 д назад

Квантование кэша KV NVFP4 на SM120 сделает системы с 32 ГБ ОЗУ очень мощными

Qwen3.6-27B работает со скоростью около 60 токенов в секунду на 32 ГБ ОЗУ с квантованием кэша KV в формате FP8. Квантование кэша KV NVFP4 на SM120 может значительно повысить производительность на таких системах, хотя текущая реализация пока недоступна.