Training methods
media r/LocalLLaMA · 6 д назад

Устранение проблемы с длительными контекстами при декодировании на Radeon R9700 с использованием vLLM 0.22.1

Проблема с производительностью при длительных контекстах на AMD Radeon AI PRO R9700 (RDNA4) была решена в vLLM 0.22.1 путем включения AITER Unified Attention. Исправление включает ослабление гейта CDNA для включения RDNA4, отключение других реализаций внимания и использование KV-кэша в формате bf16, что обеспечивает значительное ускорение при всех длинах контекста. Использование FP8 на этом оборудовании неэффективно, а нативный контекст модели в размере 262K полностью достижим при использовании bf16, обеспечивая ~2.9× параллелизм без необходимости использования FP8.

media r/LocalLLaMA · 6 д назад

EvoTensile: эволюционная настройка ядер AMD Tensile GEMM

EvoTensile использует эволюционные алгоритмы для настройки ядер GEMM для видеокарт AMD, повышая производительность размещения NT с 20 до 40 ТФЛОПС на Strix Halo. Это ускорение представляет собой значительный прогресс по сравнению с неоптимизированными ядрами, хотя и остается ниже теоретического предела в 59,4 ТФЛОПС.

arxiv arXiv cs.AI · 6 д назад

UFP4: Единая 4-битовая тренировка устраняет смещение сжатия в предварительной тренировке больших языковых моделей

Исследование выявляет смещение сжатия в форматах на основе E2M1 FP4 из-за геометрической асимметрии, что приводит к накоплению умножительной ошибки и нестабильности тренировки. Предложенная рецептура UFP4 использует единые сетки E1M2/INT4 и применяет случайный Хадамар-преобразование ко всем операциям GEMM, достигая меньшего снижения потерь по сравнению с базовыми вариантами на основе E2M1 в масштабной предварительной тренировке больших языковых моделей. Авторы рекомендуют E1M2/INT4 как первичный тренировочный примитив для будущих ускорителей.

arxiv arXiv cs.AI · 6 д назад

Переиспользование классификатора речи для генерации на основе диффузии

Предварительно обученный классификатор речи переиспользуется как основа для генерации речи на основе диффузии. При привязке легкого подмодуля и обучении его методом сопоставления сценария устранения шума, подход достигает высокого качества речи при снижении памяти и вычислительных затрат, используя один модель вместо двух отдельно обученных компонентов.

arxiv arXiv cs.AI · 6 д назад

UltraQuant: 4-бит кэширование KV для агентов с большим контекстом

UltraQuant обеспечивает 4-битное кэширование KV для агентов с большим контекстом, снижая время до первого токена на 3,47 раза в поздних раундах и увеличивая пропускную способность вывода на 1,63 раза по сравнению с базовым вариантом FP8 KV. Для достижения этого используется FP8 запросы, FP4 тензоры KV, масштабы группы UE8M0, а также встроенная операция scaled-MFMA на GPU AMD CDNA4, с оптимизациями для ядер декодирования-внимания и надежными выборами, такими как асимметричное обращение K/V и вращение по Walsh-Hadamard.

arxiv arXiv cs.AI · 6 д назад

Калибровка в моделях на основе смеси экспертов при смещении распределения

Эта статья исследует, как модели на основе смеси экспертов сохраняют калибровку при смещении распределения. Авторы показывают, что калибровка на уровне экспертов обеспечивает общую калибровку в моделях с жестким маршрутизацией, но недостаточна для моделей с мягким маршрутизацией. Авторы предлагают противоречивую пересадку, чтобы штрафовать ошибки калибровки в маршрутизированных агрегатах, улучшая баланс между точностью и калибровкой при различных задачах и смещениях.

arxiv arXiv cs.LG · 6 д назад

Прямая оценка выгоды для частично наблюдаемых областей

Прямая оценка выгоды (DAE) расширяется на частично наблюдаемые области с минимальными изменениями. Дискретная модель скрытых динамик снижает вычислительную нагрузку за счёт эффективного приближения вероятностей переходов, что позволяет использовать масштабируемую и эффективную по образцам глубинную робастную обучение в пространствах высокой размерности наблюдений.

arxiv arXiv cs.LG · 6 д назад

Временные вложения не нужны в моделях диффузии

Исследование показывает, что модели диффузии могут достигать глобальных минимумов без явных временных вложений. Исследования с использованием методов исключения на данных CelebA и CIFAR-10 показывают, что временно-независимые модели сохраняют высокую точность и превосходят модели с условием по FID, точности и полноте.

arxiv arXiv cs.LG · 6 д назад

DeepGaLA: нейронные заменители с неопределенностью для обратных задач в дифференциальных уравнениях

DeepGaLA — это нейронная сеть-заместитель, обеспечивающая прогнозы с учетом неопределенности для обратных задач в дифференциальных уравнениях. Он обеспечивает точность, сравнимую с гауссовыми процессами-заместителями, при сохранении эффективности в высокомерных пространствах параметров и учете дифференциальных уравнений.

arxiv arXiv cs.LG · 6 д назад

Механическое исследование сохранения представлений в непрерывном обучении

Синтетическая рамка показывает, что суперпозиция увеличивается со временем с кратковременными падениями на границах задач, что указывает на интерференцию, специфичную для границ. Более высокая спарсность признаков способствует суперпозиции без неизбежного забвения, при условии, что сила представлений сохраняется. Уровень эффективности ранга на уровне задач растет с ростом спарсности, что демонстрирует более широкое использование возможностей при спарсных условиях.

arxiv arXiv cs.LG · 6 д назад

Двухэтапная эволюционная оптимизация гиперпараметров для PINNs

Двухэтапная эволюционная стратегия повышает производительность физически обусловленных нейронных сетей за счет предварительного отбора кандидатов гиперпараметров с помощью низкокачественной тренировки, а затем уточнения лучших кандидатов с помощью градиентной оптимизации. Метод значительно снижает среднюю ошибку при решении задач для уравнений адвекции, Клинга-Гордона и Гельмгольца при фиксированных вычислительных ресурсах.

arxiv arXiv cs.LG · 6 д назад

Переиспользование классификатора речи для генерации на основе диффузии

Предварительно обученный классификатор речи переиспользуется как основа для генерации речи на основе диффузии. При присоединении легкого подсети и обучении ее методом сопоставления сценария устранения шума, подход достигает высокого качества речи при снижении памяти и вычислительных затрат, используя один модель вместо двух отдельно обученных компонентов.

arxiv arXiv cs.LG · 6 д назад

UltraQuant: 4-битное кэширование KV для агентов с большим контекстом

UltraQuant представляет метод 4-битного кэширования KV, разработанный специально для рабочих нагрузок агентов с большим контекстом. Он обеспечивает сокращение времени до первого токена на поздних этапах на 3,47 раза и увеличение пропускной способности вывода на 1,63 раза по сравнению с кэшированием KV в формате FP8, используя запросы в формате FP8, тензоры KV в формате FP4 и поддержку native AMD CDNA4 scaled-MFMA.

arxiv arXiv cs.LG · 6 д назад

Сбор межгруппового преимущества для самоэволюции агентов, основанных на памяти

В этой статье представлено Межгрупповое накопление преимуществ (MAA), архитектуру постобработки, которая решает проблему несогласованности между группами в самоэволюции агентов, основанных на памяти. MAA формализует сопоставимость и согласованность как структурные условия, использует дифференциальные сигналы и экспоненциальное скользящее среднее для накопления знаковых доказательств на операции, и обеспечивает отслеживаемость за счёт слияния семантических идентификаторов. В 14 из 16 случаев MAA превосходит базовые решения на уровне групп и снижает потребление токенов на 75%.

arxiv arXiv cs.LG · 6 д назад

Оценка энтропии в системах с несколькими кутритами с помощью нейронных сетей

Исследование сравнивает вариационные квантовые алгоритмы и классические CNN для оценки вон-Неймана энтропии в системах с несколькими кутритами. CNN достигают точных и стабильных предсказаний при использовании только 12,5% измерений полной томографии состояния, достигая ошибок на 90-м процентиле от 0,13 до 0.16 натов для систем из четырех и пяти кутритов, демонстрируя систематическое улучшение с ростом размера системы и устойчивость к шуму.

arxiv arXiv cs.LG · 6 д назад

Капсулы состояния выполнения для низкозадержанного выполнения ИИ на устройстве

Капсулы состояния выполнения позволяют производить контрольные точки и восстановление полного состояния выполнения графа, включая состояния КВ, рекуррентные и конволюционные, что обеспечивает низкую задержку и эффективное выполнение небольших пакетов на устройстве для ИИ. На RTX 5090 и Jetson AGX Thor восстановление капсулы обеспечивает точность на уровне байтов и идентичности токенов, с операциями на GPU менее миллисекунды и ускорением TTFT до 27x при 16k токенах, что демонстрирует значительное снижение задержки в интерактивных рабочих процессах ИИ.

arxiv arXiv cs.LG · 6 д назад

Многоцелевая байесовская система обучения в контексте

Новая многоцелевая система обучения в контексте позволяет осуществлять амортизированную иерархическую байесовскую инференцию, представляя информацию о предыдущих данных в виде префикса в наборах данных. Трансформерная модель адаптирует прогнозы между семействами предыдущих данных, достигая производительности, соответствующей идеальной модели, на различных задачах, при этом значительно ускоряясь. Она была проверена на реальных спектрально-временных прогнозах температуры.

arxiv arXiv cs.LG · 6 д назад

Калибровка в моделях на основе смеси экспертов при смещении распределения

Эта статья исследует, как модели на основе смеси экспертов сохраняют калибровку при смещении распределения. Авторы показывают, что калибровка на уровне экспертов обеспечивает общую калибровку в жестко-пропускаемых моделях, но недостаточна для мягко-пропускаемых моделей. Авторы предлагают противоречивую пересылку для штрафования ошибок калибровки в агрегатах маршрутизации, улучшая баланс между точностью и калибровкой при различных задачах и смещениях.

arxiv arXiv cs.LG · 6 д назад

Ли-алгебраическое внимание: токены элементов группы в нейронных сетях

Ли-алгебраическое внимание вводит токены как элементы матричных групп Ли, используя замкнутую алгебраическую норму относительных положений как оценки внимания. Метод достигает инвариантного и эквивариантного внимания без компонент теории представлений, превосходя векторные базовые модели на SE(2), SO(3) и Aff(2) с меньшим количеством параметров и без обучаемых ядер.

arxiv arXiv cs.AI · 6 д назад

Лёгкий как процесс-верифицированный оракул вознаграждения в RL для доказательства теорем

Эта работа показывает, что Lean может служить симметрическим оракулом процесса, предоставляя детализированные, верифицированные сигналы обратной связи во время обучения с усилением. Разбивая попытки доказательства на последовательности тактик и используя элаборацию Lean для выделения корректных шагов и первых сбоев, система генерирует плотные сигналы вознаграждения, основанные на типовой теории. Эксперименты демонстрируют, что надзор на уровне тактик превосходит методы, основанные только на результатах, на бенчмарках, таких как MiniF2F и ProofNet, что подчёркивает роль Lean как оценщика и источника вознаграждения для обучения.