Training methods — korshunov.ai

Training methods Страница 1 / 13

VIMPO: критерий-бесплатная оптимизация политики для больших языковых моделей

VIMPO представляет метод критерий-бесплатной оптимизации политики, который получает функцию значений, имплицированную политикой, из обучения по репликации с регуляризацией КЛ. Он позволяет интегрировать вознаграждение с верификацией без обучения критерия и превосходит GRPO на математических тестах, особенно при шумных вознаграждениях.

arxiv arXiv cs.LG · 6 д назад

Контроль на основе LLM в многоконтролируемых играх

Характеристика иерархической системы, использующей предобученный LLM для выбора политик RL-навыков, превосходит плоскую RL в среде 2v2 King of the Hill. Она соответствует показателю эффективности, достигнутому при ручной разработке дерева поведения, и воспринимается как более человеческая на 60% пользователей, что подчеркивает эффективную координацию и адаптивность без ручного проектирования правил.

arxiv arXiv cs.LG · 6 д назад

Информационный анализ эффективного надзора в скрытой цепочке мыслей

Эта статья выявляет двойное падение в скрытой логике: затухание градиента и дрейф представлений. Предлагается траекториальный и пространственный надзор, показывая, что генеративное восстановление сохраняет информационную емкость лучше, чем геометрическое сжатие. Единый скрытый анализ измеряет взаимную информацию между скрытыми траекториями и шагами рассуждения, выявляя связь между информацией и производительностью в точности рассуждений.

arxiv arXiv cs.LG · 6 д назад

Сенсорно-моторные модели мира для восприятия, синхронизированного с действиями

Вводится сенсорно-моторная модель мира (SMWM), которая обучает компактные, действия-ориентированные скрытые представления на основе оффлайн-траекторий. Она использует регуляризацию обратных динамик для предотвращения коллапса представлений и обеспечения стабильных, интерпретируемых моделей мира без необходимости фиксированных кодировщиков или сложных регуляризаторов. SMWM достигает конкурентоспособных результатов по планированию в задачах 2D и 3D управления.

arxiv arXiv cs.LG · 6 д назад

Квантиль средних: метод ансамбля для минимакс оптимального обучения с усилением

Новый метод ансамбля для конечных горизонтов МДП использует оценки на основе квантилей для достижения минимакс оптимальных границ потерь. Он устраняет зависимость от подсчета неопределенности и предоставляет теоретическое обоснование для ансамблевого поиска в обучении с усилением.

arxiv arXiv cs.LG · 6 д назад

Офф-политический анализ для вознаграждений MNAR в МДП

Мы предлагаем метод офф-политического анализа для конечногоризонтных МДП с вознаграждениями, отсутствующими не случайно. Наш подход использует модель вероятности, зависящую от вознаграждения, и мостовую функцию для восстановления условных средних вознаграждений без моделирования механизма MNAR, обеспечивая согласованность и границы ошибки на конечных выборках. Эксперименты на симулированных и данных MIMIC-III Sepsis показывают превосходную производительность по сравнению с существующими методами.

arxiv arXiv cs.LG · 6 д назад

Граничное встраивание и формирование для расщепления структур графа

Граничное встраивание и формирование (BES) решает проблему переплетения структуры графа за счёт селективного подавления спорных корреляций соседей вблизи границ классов. BES использует адаптивное контрастное обучение для усиления дифференцирования границ, повышая точность классификации узлов GCN в среднем на 3,3% (до 5,0% на WikiCS) и достигая превосходной точности предсказания связей.

arxiv arXiv cs.LG · 6 д назад

SLiR: Линейные релаксации на основе сдвига для функций активации

SLiR обеспечивает надежные и тесные линейные релаксации общих функций активации, используя только константы Липшица или критические точки. Он достигает до 7,8 раз большего количества свойств верификации по сравнению с методами, которые уже существуют, за счет эффективного вычисления верхних и нижних границ с помощью процедуры сдвига.

arxiv arXiv cs.LG · 6 д назад

Статистические свойства обучения и обобщения

Статья рассматривает отклонение глубокого обучения от классических статистических интуиций, акцентируя внимание на нейронных законах масштабирования и их взаимодействии с физическими ограничениями и индуктивными предпосылками в приложениях машинного обучения.

arxiv arXiv cs.LG · 6 д назад

Модельный подход к семействам сред обучения с усилением

Модельный подход генерирует семейства сред обучения с усилением с помощью гибридного генетического алгоритма. Варианты сред создаются с помощью преобразований моделей, руководимых передовой системой преобразования моделей, что обеспечивает масштабируемое и ошибочно устойчивое развитие. Метод проверяется в сценариях по ликвидации пожаров и обучения куррикумам.

arxiv arXiv cs.LG · 6 д назад

Рекуррентные нейронные сети аппроксимируют непрерывные функции

Одна нейронная сеть с фиксированными весами и скрытой размерностью на основе ReLU может равномерно аппроксимировать любую непрерывную функцию на отрезке [-1,1] при увеличении времени выполнения. Это достигается с помощью нового моделирования — туринговой машины с нейронными единицами (TMNU), которая обеспечивает баланс между алгоритмической гибкостью и ограниченной имитацией нейронных сетей. Скорости сходимости соответствуют скоростям полиномиальной аппроксимации, а минимаксные нижние границы подтверждают, что время выполнения является важным и неизбежным ресурсом.

arxiv arXiv cs.LG · 6 д назад

QCPIKAN: квантово-классическая физически-обусловленная сеть Кольмогорова-Арнольда для уравнений в частных производных

QCPIKAN — первая квантово-классическая физически-обусловленная сеть Кольмогорова-Арнольда, разработанная для решения уравнений в частных производных. Она использует слои на основе чебышёвских полиномов КАН и параметризованных квантовых схем для встраивания физических ограничений в процесс обучения, обеспечивая экспоненциальное сходимость ошибки и снижение численной дисперсии. Проверена на сценариях проникновения в пористых средах, она превосходит существующие квантово-классические нейронные сети по точности предсказания, контролю ошибки и динамическому отслеживанию.

arxiv arXiv cs.LG · 6 д назад

Квантовый кольцевой агрегат: преимущества в коммуникации и приватности для распределенной обучения

Квантовая версия кольцевого агрегата снижает коммуникацию по каждому соединению вдвое с использованием запутывания и суперплотного кодирования, не изменяя вычисления модели или градиентов. Она обеспечивает агрегацию с теоретической безопасностью с использованием подтвержденного запутывания, с избыточностью в 2 раза по копиям GHZ, и предоставляет экспоненциальные преимущества в обнаружении конфликтов градиентов для определенных задач аудита.

arxiv arXiv cs.LG · 6 д назад

Снижение дисперсии в обучении на основе временных разностей

Обучение на основе временных разностей снижает дисперсию за счет агрегации по нескольким траекториям. Исследование показывает, что дисперсия TD асимптотически ограничена сверху оценками Монте-Карло, и короткие горизонты обновления снижают дисперсию при фиксированном количестве образцов. Прямое оценка преимущества действует как регрессионно скорректированный контр-вариант и достигает более тесных границ дисперсии, чем TD при больших выборках.

arxiv arXiv cs.CL · 6 д назад

Последовательный DPO показывает переменное влияние предпочтений в различных настройках

Исследование последовательного прямого оптимизации предпочтений показывает, что последующее обучение не унифицированно ухудшает ранее изученные предпочтения. Эффект варьируется в зависимости от взаимосвязи целей, силы сигнала и порядка обучения, варьируясь от частичного ухудшения до положительного переноса. Анализ на уровне пар показывает гетерогенные изменения, при этом пары с высокой уверенностью в предпочтениях иногда улучшаются, несмотря на стабильность общих метрик.

arxiv arXiv cs.CL · 6 д назад

Байесовское куррикулярное обучение на латентных многообразиях ЛЛМ

Manifold Bandits вводит Байесовское куррикулярное многообразие (BMC), рамку, которая моделирует выбор задач как структурированную задачу в латентном пространстве ЛЛМ. BMC организует задачи в иерархическое дерево и использует байесовское обучение для направления выбора, раскрывая компромиссы между сигналом обучения, разнообразием задач и релевантностью оценки. Простое приоритизация сложности не приводит к сильной производительности на последующих задачах, что подчеркивает необходимость структуры и выбора, учитывающего тип задачи.

arxiv arXiv cs.CL · 6 д назад

Обучение больших языковых моделей для агентов с длительным жизненным циклом через перекрестную обобщение в разных областях

Новый фреймворк позволяет больших языковых моделей учиться "Соедините точки" с использованием обучения с подкреплением и длинных последовательностей развертывания. Метод включает специализированные задачи и среды, способствующие развитию мета-способностей, демонстрируя сильное перекрестное обобщение и эффективность в условиях, отличающихся от распределения. Реализации доступны по адресу https://github.com/agentscope-ai/Trinity-RFT/tree/research/cod/examples/research_cod.

arxiv arXiv cs.CL · 6 д назад

Информационный анализ эффективного надзора в скрытой цепочке мыслей

Эта работа выявляет двойное упадание в скрытой логике: ослабление градиента и дрейф представлений. Предлагается Траекториальный и Пространственный надзор, показывая, что генеративное восстановление сохраняет информационную емкость лучше, чем геометрическое сжатие. Единый скрытый анализ измеряет взаимную информацию между скрытыми траекториями и шагами мышления, выявляя связь между информацией и производительностью в точности мышления.

arxiv arXiv cs.CL · 7 д назад

HydraHead: гибридное внимание на уровне головок для производительности при длинных контекстах

HydraHead вводит гибридное объединение полного и линейного внимания на уровне головок, используя интерпретируемость для выбора головок, критичных для поиска, и объединяя выходы через модуль с нормализацией масштаба. Обученный на 15 миллиардов токенов, он обеспечивает более чем 69% улучшения по сравнению с базовой моделью при длине контекста 512K, превосходя гибридные модели на уровне слоев и приближаясь к производительности Qwen3.5 на задачах с длинными контекстами.

media r/LocalLLaMA · 7 д назад

GLM-5.2 (744B, 2-бит) достигает 7,3 ток/с на 4×3090 с 192 ГБ ОЗУ

GLM-5.2 UD-IQ2_M работает со скоростью около 7,3 токенов в секунду на 4×RTX 3090 с 192 ГБ DDR5 ОЗУ при использовании llama.cpp с экспертным выгрузкой. Снижение квантования с IQ2 до IQ1 не привело к увеличению скорости, в то время как увеличение числа потоков на ЦП от 6 до 12 повысило производительность на 22%. Декодирование ограничено вычислительной мощностью ЦП, а не пропускной способностью памяти, и эксперты, выгруженные на GPU, должны быть явно распределены между GPU, чтобы избежать ошибок переполнения памяти.