Training methods — korshunov.ai

Training methods Страница 1 / 12

Лёгкий как процесс-верифицированный оракул вознаграждения в RL для доказательства теорем

Эта работа показывает, что Lean может служить симметрическим оракулом процесса, предоставляя детализированные, верифицированные сигналы обратной связи во время обучения с усилением. Разбивая попытки доказательства на последовательности тактик и используя элаборацию Lean для выделения корректных шагов и первых сбоев, система генерирует плотные сигналы вознаграждения, основанные на типовой теории. Эксперименты демонстрируют, что надзор на уровне тактик превосходит методы, основанные только на результатах, на бенчмарках, таких как MiniF2F и ProofNet, что подчёркивает роль Lean как оценщика и источника вознаграждения для обучения.

arxiv arXiv cs.AI · 6 д назад

Изучаемое глобальное слияние для переменной длины токенизации в трансформерах диффузии

Новый токенизатор с переменной длиной использует изучаемое глобальное слияние для обеспечения сопоставления представлений разной длины в моделях диффузии. Этот подход, независимый от данных, преодолевает позиционные семантики и улучшает соотношение качества и вычислительных затрат при генерации изображений ImageNet 256×25-6 по сравнению с предыдущими методами.

arxiv arXiv cs.AI · 6 д назад

Оптимизация на основе эволюционных методов в пространстве остатков через модели генеративных потоков

Модель-агностичная система объединяет редактирование на основе потоков с эволюционными алгоритмами для обеспечения редактирования данных в ненаблюдаемых условиях. Она работает в пространстве остатков, используя самопропагацию для локальной оптимизации и перекрестное скрещивание для широкого поиска, что было проверено на данных MorphoMNIST и кристаллов для достижения баланса между соответствием цели, сохранением экземпляров и разнообразием.

arxiv arXiv cs.AI · 6 д назад

Внимание-ориентированный SAC для прогнозирования пористости в аддитивном производстве

Многоуровневый экстрактор признаков на основе внимания, интегрированный с Soft Actor-Critic, улучшает прогнозирование пористости и оптимизацию параметров процесса в лазерной сварке порошков. Метод достиг значения сходимости 322,79 за 14 эпизодов, превосходя DQN, PPO, TD3 и обычный SAC по скорости сходимости и стабильности.

arxiv arXiv cs.AI · 6 д назад

Гибридный диффузионный трансформер для редактирования аудио с использованием инструкций

Гибридная двухэтапная архитектура диффузионного трансформера обеспечивает эффективное и точное редактирование аудио с использованием инструкций. Она использует семантическую синхронизацию от грубого к детальному уровню через совместное внимание на низком разрешении, а затем уточнение редактирования с помощью альтернирующего совместного и перекрестного внимания на высоком разрешении. Метод обеспечивает лучшие результаты на сложных задачах редактирования с улучшенной эффективностью и компактной моделью.

arxiv arXiv cs.AI · 6 д назад

Сенсорно-моторные модели мира для восприятия, синхронизированного с действиями

Новая сенсорно-моторная модель мира (SMWM) обучает компактные, действия-связанные скрытые представления на основе отложенных траекторий. Она использует регуляризацию обратных динамик для предотвращения коллапса представлений и синхронизирует скрытые состояния с управляемыми степенями свободы окружающей среды, обеспечивая стабильное обучение без сложных регуляторов или замороженных компонентов. SMWM достигает конкурентоспособной производительности планирования в задачах 2D и 3D управления.

arxiv arXiv cs.AI · 6 д назад

Частотно-осознанное совпадение потоков для генерации действий робота

Частотно-осознанное совпадение потоков (FAFM) обеспечивает непрерывную и временно согласованную генерацию действий робота за счет преобразования дискретных последовательностей действий в частотную область с помощью дискретного косинусного преобразования. Оно регулирует первые временные производные с помощью ограничения типа Соболева для обеспечения плавных действий, повышая вероятность успеха, плавность движений и устойчивость при выполнении синтетических и реальных задач без добавления параметров в сеть.

arxiv arXiv cs.AI · 6 д назад

RACL: Слой управления агентом для мета-оптимизации обучения

RACL вводит агента принятия решений, который управляет поведением мета-оптимизационного поиска, не заменяя оптимизаторы или изменяя ограничения. Он улучшает или сохраняет ключевые политики в экспериментах по маршрутизации транспортных средств, снижая среднюю стоимость на 8,337% по сравнению с Fixed и на 1,605% по сравнению с политиками, активированными при стагнации, без значительного увеличения вычислительной нагрузки.

arxiv arXiv cs.AI · 6 д назад

Гибридная система ANN-SNN с локальной пластичностью

Гибридная система ANN-SNN использует предобученные энкодеры EfficientNet и преобразует их активации в импульсные последовательности с помощью кодирования скорости. Система обучает спайковый классификатор CoLaNET с локальными правилами пластичности, достигая точности 99,09% на тестовом наборе ImageNet из 64 классов, что соответствует традиционным глубоким сетям.

arxiv arXiv cs.AI · 6 д назад

Модульная спарсность синхронизации для обучения PINN

ModSync решает проблему потери способности в PINN за счёт предотвращения функциональной модульности и само-разделения перепараметризованных сетей. Оно усиливает взаимодействие между целями за счёт структурной оптимизации, которая штрафует специализированные соединения, при этом сохраняя пути, способствующие взаимодействию.

arxiv arXiv cs.AI · 6 д назад

Граничное встраивание для расщепления структуры графа

Граничное встраивание (BES) решает проблему взаимосвязи структуры графа, подавляя спорные корреляции соседей вблизи границ классов. BES использует адаптивное контрастное обучение для усиления дискриминации границ, что повышает точность классификации узлов в GCN в среднем на 3,3% (до 5,0% на WikiCS) и обеспечивает превосходную точность предсказания связей.

arxiv arXiv cs.LG · 6 д назад

Обучение больших языковых моделей для агентов с длительным жизненным циклом через перекрестную обобщение в разных областях

Новый фреймворк позволяет большим языковым моделям развивать способность "Соединить точки", что позволяет агентам с длительным жизненным циклом учиться на опыте и итеративно обновлять контекст своей среды. Фреймворк использует обучение с помощью вознаграждений с длинными последовательностями и пользовательскими задачами, чтобы стимулировать перекрестное обобщение в разных областях, демонстрируя эффективную работу вне распределения как в одной области, так и при переходах между областями.

arxiv arXiv cs.LG · 6 д назад

StreamKL: Быстрый и память-эффективный KL-разброс для дистилляции внимания

StreamKL вводит синтезированную GPU-примитив, которая устраняет квадратичное использование памяти в дистилляции внимания за счёт потока кусков запрос-ключ через внутреннюю память SRAM. Оно обеспечивает ускорение до 43 раз в прямом и до 14 раз в обратном проходе, снижая дополнительную площадь HBM от O(N_QN_K) до O(1), что позволяет проводить дистилляцию длинных контекстов на одном GPU.

arxiv arXiv cs.LG · 6 д назад

VIMPO: критерий-бесплатная оптимизация политики для больших языковых моделей

VIMPO представляет метод критерий-бесплатной оптимизации политики, который получает функцию значений, имплицированную политикой, из обучения по репликации с регуляризацией КЛ. Он позволяет интегрировать вознаграждение с верификацией без обучения критерия и превосходит GRPO на математических тестах, особенно при шумных вознаграждениях.

arxiv arXiv cs.LG · 6 д назад

Контроль на основе LLM в многоконтролируемых играх

Характеристика иерархической системы, использующей предобученный LLM для выбора политик RL-навыков, превосходит плоскую RL в среде 2v2 King of the Hill. Она соответствует показателю эффективности, достигнутому при ручной разработке дерева поведения, и воспринимается как более человеческая на 60% пользователей, что подчеркивает эффективную координацию и адаптивность без ручного проектирования правил.

arxiv arXiv cs.LG · 6 д назад

Информационный анализ эффективного надзора в скрытой цепочке мыслей

Эта статья выявляет двойное падение в скрытой логике: затухание градиента и дрейф представлений. Предлагается траекториальный и пространственный надзор, показывая, что генеративное восстановление сохраняет информационную емкость лучше, чем геометрическое сжатие. Единый скрытый анализ измеряет взаимную информацию между скрытыми траекториями и шагами рассуждения, выявляя связь между информацией и производительностью в точности рассуждений.

arxiv arXiv cs.LG · 6 д назад

Сенсорно-моторные модели мира для восприятия, синхронизированного с действиями

Вводится сенсорно-моторная модель мира (SMWM), которая обучает компактные, действия-ориентированные скрытые представления на основе оффлайн-траекторий. Она использует регуляризацию обратных динамик для предотвращения коллапса представлений и обеспечения стабильных, интерпретируемых моделей мира без необходимости фиксированных кодировщиков или сложных регуляризаторов. SMWM достигает конкурентоспособных результатов по планированию в задачах 2D и 3D управления.

arxiv arXiv cs.LG · 6 д назад

Квантиль средних: метод ансамбля для минимакс оптимального обучения с усилением

Новый метод ансамбля для конечных горизонтов МДП использует оценки на основе квантилей для достижения минимакс оптимальных границ потерь. Он устраняет зависимость от подсчета неопределенности и предоставляет теоретическое обоснование для ансамблевого поиска в обучении с усилением.

arxiv arXiv cs.LG · 6 д назад

Офф-политический анализ для вознаграждений MNAR в МДП

Мы предлагаем метод офф-политического анализа для конечногоризонтных МДП с вознаграждениями, отсутствующими не случайно. Наш подход использует модель вероятности, зависящую от вознаграждения, и мостовую функцию для восстановления условных средних вознаграждений без моделирования механизма MNAR, обеспечивая согласованность и границы ошибки на конечных выборках. Эксперименты на симулированных и данных MIMIC-III Sepsis показывают превосходную производительность по сравнению с существующими методами.

arxiv arXiv cs.LG · 6 д назад

Граничное встраивание и формирование для расщепления структур графа

Граничное встраивание и формирование (BES) решает проблему переплетения структуры графа за счёт селективного подавления спорных корреляций соседей вблизи границ классов. BES использует адаптивное контрастное обучение для усиления дифференцирования границ, повышая точность классификации узлов GCN в среднем на 3,3% (до 5,0% на WikiCS) и достигая превосходной точности предсказания связей.