Training methods — korshunov.ai

Training methods Страница 1 / 14

Ключевые факторы в RL для логического мышления в LLM раскрыты

Теоретический анализ показывает, что степень off-policy, определяемая количеством градиентных шагов на одну сессию, значительно влияет на коэффициенты важности и доминирование обновления токенов. В исследовании представлено адаптивное обобщение политики оптимизации (ACPO), которое корректирует границы обрезки по вариации групп токенов, превосходя DAPO и CISPO на моделях 3B и 7B по математическим, вопросам-ответам и логическим задачам.

media Hugging Face Forums · 3 д назад

Маломасштабное сравнение отладки OLMo-core с гратом Engram

Сравнение на 200 шагов обучения между базовым моделью OLMo3 600M и версией с гратом Engram в стиле DeepSeek показывает меньшие потери при обучении и оценке, более быстрое стабилизацию нормы градиента и улучшенное поведение на ранних этапах обучения. Грат Engram, введенный в слои 1 и 5, увеличивает количество обучающихся параметров до ~1,7 млрд, но сохраняет лишь увеличение на 40 тыс. активных параметров на токен, что указывает на эффективное использование памяти.

media r/LocalLLaMA · 5 д назад

Бесплатная серия из 15 частей о внутренних аспектах LLM, основанных на Gemma 4 12B

Я написал бесплатную серию из 15 частей, в которой подробно описывается внутренняя структура LLM, используя Gemma 4 12B в качестве основного примера. Каждая часть охватывает технические аспекты от токенизации до предоставления сервиса, с реальными математическими вычислениями, формами тензоров и ограничениями аппаратного обеспечения. Серия включает в себя дополнительный разбор vLLM и полностью доступна без платных стен или требований на электронную почту.

media r/LocalLLaMA · 6 д назад

RTX 5090 MSI потребление энергии и предупреждение о кабеле

RTX 5090 MSI потребляет 475-500 Вт во время инференса или тренировки диффузии. Пользователь отмечает, что не испытывает проблем с кабелем питания, подчеркивая, что его не следует изгибать для обеспечения безопасной и стабильной работы.

media r/LocalLLaMA · 6 д назад

Устранение проблемы с длительными контекстами при декодировании на Radeon R9700 с использованием vLLM 0.22.1

Проблема с производительностью при длительных контекстах на AMD Radeon AI PRO R9700 (RDNA4) была решена в vLLM 0.22.1 путем включения AITER Unified Attention. Исправление включает ослабление гейта CDNA для включения RDNA4, отключение других реализаций внимания и использование KV-кэша в формате bf16, что обеспечивает значительное ускорение при всех длинах контекста. Использование FP8 на этом оборудовании неэффективно, а нативный контекст модели в размере 262K полностью достижим при использовании bf16, обеспечивая ~2.9× параллелизм без необходимости использования FP8.

media r/LocalLLaMA · 6 д назад

EvoTensile: эволюционная настройка ядер AMD Tensile GEMM

EvoTensile использует эволюционные алгоритмы для настройки ядер GEMM для видеокарт AMD, повышая производительность размещения NT с 20 до 40 ТФЛОПС на Strix Halo. Это ускорение представляет собой значительный прогресс по сравнению с неоптимизированными ядрами, хотя и остается ниже теоретического предела в 59,4 ТФЛОПС.

arxiv arXiv cs.AI · 6 д назад

UFP4: Единая 4-битовая тренировка устраняет смещение сжатия в предварительной тренировке больших языковых моделей

Исследование выявляет смещение сжатия в форматах на основе E2M1 FP4 из-за геометрической асимметрии, что приводит к накоплению умножительной ошибки и нестабильности тренировки. Предложенная рецептура UFP4 использует единые сетки E1M2/INT4 и применяет случайный Хадамар-преобразование ко всем операциям GEMM, достигая меньшего снижения потерь по сравнению с базовыми вариантами на основе E2M1 в масштабной предварительной тренировке больших языковых моделей. Авторы рекомендуют E1M2/INT4 как первичный тренировочный примитив для будущих ускорителей.

arxiv arXiv cs.AI · 6 д назад

Переиспользование классификатора речи для генерации на основе диффузии

Предварительно обученный классификатор речи переиспользуется как основа для генерации речи на основе диффузии. При привязке легкого подмодуля и обучении его методом сопоставления сценария устранения шума, подход достигает высокого качества речи при снижении памяти и вычислительных затрат, используя один модель вместо двух отдельно обученных компонентов.

arxiv arXiv cs.AI · 6 д назад

UltraQuant: 4-бит кэширование KV для агентов с большим контекстом

UltraQuant обеспечивает 4-битное кэширование KV для агентов с большим контекстом, снижая время до первого токена на 3,47 раза в поздних раундах и увеличивая пропускную способность вывода на 1,63 раза по сравнению с базовым вариантом FP8 KV. Для достижения этого используется FP8 запросы, FP4 тензоры KV, масштабы группы UE8M0, а также встроенная операция scaled-MFMA на GPU AMD CDNA4, с оптимизациями для ядер декодирования-внимания и надежными выборами, такими как асимметричное обращение K/V и вращение по Walsh-Hadamard.

arxiv arXiv cs.AI · 6 д назад

Калибровка в моделях на основе смеси экспертов при смещении распределения

Эта статья исследует, как модели на основе смеси экспертов сохраняют калибровку при смещении распределения. Авторы показывают, что калибровка на уровне экспертов обеспечивает общую калибровку в моделях с жестким маршрутизацией, но недостаточна для моделей с мягким маршрутизацией. Авторы предлагают противоречивую пересадку, чтобы штрафовать ошибки калибровки в маршрутизированных агрегатах, улучшая баланс между точностью и калибровкой при различных задачах и смещениях.

arxiv arXiv cs.LG · 6 д назад

Прямая оценка выгоды для частично наблюдаемых областей

Прямая оценка выгоды (DAE) расширяется на частично наблюдаемые области с минимальными изменениями. Дискретная модель скрытых динамик снижает вычислительную нагрузку за счёт эффективного приближения вероятностей переходов, что позволяет использовать масштабируемую и эффективную по образцам глубинную робастную обучение в пространствах высокой размерности наблюдений.

arxiv arXiv cs.LG · 6 д назад

Временные вложения не нужны в моделях диффузии

Исследование показывает, что модели диффузии могут достигать глобальных минимумов без явных временных вложений. Исследования с использованием методов исключения на данных CelebA и CIFAR-10 показывают, что временно-независимые модели сохраняют высокую точность и превосходят модели с условием по FID, точности и полноте.

arxiv arXiv cs.LG · 6 д назад

DeepGaLA: нейронные заменители с неопределенностью для обратных задач в дифференциальных уравнениях

DeepGaLA — это нейронная сеть-заместитель, обеспечивающая прогнозы с учетом неопределенности для обратных задач в дифференциальных уравнениях. Он обеспечивает точность, сравнимую с гауссовыми процессами-заместителями, при сохранении эффективности в высокомерных пространствах параметров и учете дифференциальных уравнений.

arxiv arXiv cs.LG · 6 д назад

Механическое исследование сохранения представлений в непрерывном обучении

Синтетическая рамка показывает, что суперпозиция увеличивается со временем с кратковременными падениями на границах задач, что указывает на интерференцию, специфичную для границ. Более высокая спарсность признаков способствует суперпозиции без неизбежного забвения, при условии, что сила представлений сохраняется. Уровень эффективности ранга на уровне задач растет с ростом спарсности, что демонстрирует более широкое использование возможностей при спарсных условиях.

arxiv arXiv cs.LG · 6 д назад

Двухэтапная эволюционная оптимизация гиперпараметров для PINNs

Двухэтапная эволюционная стратегия повышает производительность физически обусловленных нейронных сетей за счет предварительного отбора кандидатов гиперпараметров с помощью низкокачественной тренировки, а затем уточнения лучших кандидатов с помощью градиентной оптимизации. Метод значительно снижает среднюю ошибку при решении задач для уравнений адвекции, Клинга-Гордона и Гельмгольца при фиксированных вычислительных ресурсах.

arxiv arXiv cs.LG · 6 д назад

Переиспользование классификатора речи для генерации на основе диффузии

Предварительно обученный классификатор речи переиспользуется как основа для генерации речи на основе диффузии. При присоединении легкого подсети и обучении ее методом сопоставления сценария устранения шума, подход достигает высокого качества речи при снижении памяти и вычислительных затрат, используя один модель вместо двух отдельно обученных компонентов.

arxiv arXiv cs.LG · 6 д назад

UltraQuant: 4-битное кэширование KV для агентов с большим контекстом

UltraQuant представляет метод 4-битного кэширования KV, разработанный специально для рабочих нагрузок агентов с большим контекстом. Он обеспечивает сокращение времени до первого токена на поздних этапах на 3,47 раза и увеличение пропускной способности вывода на 1,63 раза по сравнению с кэшированием KV в формате FP8, используя запросы в формате FP8, тензоры KV в формате FP4 и поддержку native AMD CDNA4 scaled-MFMA.

arxiv arXiv cs.LG · 6 д назад

Сбор межгруппового преимущества для самоэволюции агентов, основанных на памяти

В этой статье представлено Межгрупповое накопление преимуществ (MAA), архитектуру постобработки, которая решает проблему несогласованности между группами в самоэволюции агентов, основанных на памяти. MAA формализует сопоставимость и согласованность как структурные условия, использует дифференциальные сигналы и экспоненциальное скользящее среднее для накопления знаковых доказательств на операции, и обеспечивает отслеживаемость за счёт слияния семантических идентификаторов. В 14 из 16 случаев MAA превосходит базовые решения на уровне групп и снижает потребление токенов на 75%.

arxiv arXiv cs.LG · 6 д назад

Оценка энтропии в системах с несколькими кутритами с помощью нейронных сетей

Исследование сравнивает вариационные квантовые алгоритмы и классические CNN для оценки вон-Неймана энтропии в системах с несколькими кутритами. CNN достигают точных и стабильных предсказаний при использовании только 12,5% измерений полной томографии состояния, достигая ошибок на 90-м процентиле от 0,13 до 0.16 натов для систем из четырех и пяти кутритов, демонстрируя систематическое улучшение с ростом размера системы и устойчивость к шуму.

arxiv arXiv cs.LG · 6 д назад

Капсулы состояния выполнения для низкозадержанного выполнения ИИ на устройстве

Капсулы состояния выполнения позволяют производить контрольные точки и восстановление полного состояния выполнения графа, включая состояния КВ, рекуррентные и конволюционные, что обеспечивает низкую задержку и эффективное выполнение небольших пакетов на устройстве для ИИ. На RTX 5090 и Jetson AGX Thor восстановление капсулы обеспечивает точность на уровне байтов и идентичности токенов, с операциями на GPU менее миллисекунды и ускорением TTFT до 27x при 16k токенах, что демонстрирует значительное снижение задержки в интерактивных рабочих процессах ИИ.