Research paper
arxiv arXiv cs.LG · 8 д назад

MGUP: Моментум-Градиентное Согласование для Селективной Оптимизации

MGUP вводит механизм селективного обновления, при котором применяются большие шаги обновления к фиксированному проценту параметров в стохастической оптимизации, в то время как остальные параметры обновляются с меньшими, ненулевыми шагами. MGUP интегрируется без проблем с оптимизаторами, такими как AdamW, Lion и Muon, обеспечивая теоретические гарантии сходимости для MGUP-AdamW и демонстрируя превосходную или более стабильную производительность при обучении больших языковых моделей и задачах предобучения MAE.

arxiv arXiv cs.LG · 8 д назад

Система дорожной платы в Нью-Йорке увеличивает использование транспорта в условиях неравномерных сдвигов спроса

Дорожная плата в Нью-Йорке в 2025 году привела к значительному росту пассажиропотока на автобусах и в метро, с ростом, выходящим за пределы центральной части Манхэттена. Общий спрос на транспорт снизился незначительно, главным образом в зоне снятия перегрузки, и реакция на уровне районов демонстрирует неравномерную адаптацию социально-демографических групп.

arxiv arXiv cs.LG · 8 д назад

SPHERE-JEPA: Семейство статистических регуляторов для гиперсферы

SPHERE-JEPA вводит детерминированные статистические регуляторы на гиперсфере, заменяя стохастические срезанные методы аналитически интегрируемыми целями, такими как MMD, KSD и расстояние Клайна. Вращающиеся инвариантные ядра, основанные на тепловых и полосовых фильтрах, обеспечивают обучение без пространственной предвзятости, при этом эмпирические результаты показывают улучшенную сходимость и производительность на ImageNet и Galaxy10, а также превосходное разделение экземпляров в процедурном извлечении текстур с использованием расстояния Клайна.

arxiv arXiv cs.LG · 8 д назад

TUNEAHEAD предсказывает производительность тонкой настройки до начала обучения

TUNEAHEAD — это легкий фреймворк, который предсказывает производительность тонкой настройки с использованием мета-векторов из описаний датасетов и коротких пробных запусков. Он превосходит базовые методы, такие как Early-Stop Extrapolation и ProxyLM, достигая RMSE в 1,47 процентных пунктах и 95,1% предсказаний в пределах ±3 процентных пунктов от истинных оценок на 370 отложенных запусках.

arxiv arXiv cs.LG · 8 д назад

Кадровый кураторский фреймворк с учетом неопределенности

Внутри фреймворка Transfer Teacher вводится оценка степени неопределенности, чтобы улучшить интерпретируемость модели и эффективность обучающих данных. Оценки на CIFAR-10 показывают, что порядок кураторского обучения с учетом неопределенности превосходит случайный порядок на 8,7% при 20% данных, демонстрируя стабильные выгоды в эффективности использования данных. Однако как кураторский, так и анти-кураторский порядок не улучшают точность по сравнению с обычной тренировкой на полных данных, что указывает на то, что улучшения функции оценки сами по себе недостаточны для преодоления неудачных режимов обучения по кураторскому подходу.

arxiv arXiv cs.LG · 8 д назад

SMAA-Fair: Расширение SMAA с учетом справедливости для ранжирования

SMAA-Fair расширяет статистический многокритериальный анализ приемлемости, пересчитывая ранжировки на основе групповой справедливости. В него включены метрики справедливости, такие как статистическая равномерность, rKL и nDKL, которые корректируют индексы приемлемости для лучшего отражения защищенных групп, сохраняя при этом устойчивость к неопределенности предпочтений.

arxiv arXiv cs.LG · 8 д назад

Невидимое восстановление скрытых доменов за счет открытия симметрии без надзора

В статье предложена безнадзорная система восстановления скрытых доменов и сигналов из искаженных наблюдений за счет открытия симметрий данных. Авторы моделируют наблюдения как линейные измерения сигналов из скрытого случайного поля и используют неглубокую сеть с групповыми свертками с ограничениями на стационарность и локальность для обучения скрытых симметрий и фильтров, что позволяет восстанавливать сигналы из неструктурированных данных.

arxiv arXiv cs.LG · 8 д назад

QueryMarket: Онлайн-активное обучение с учетом стоимости в рынках данных

QueryMarket вводит OVBAL, онлайн-рамку активного обучения на основе дисперсии, которая оценивает междупунктовую полезность каждого данных с использованием критерия D-оптимальности с экспоненциальным забвением. OVBAL выбирает образцы на основе полезности и цены, работает под условиями подвижного бюджета и адаптируется к сдвигу концептуальных моделей, демонстрируя улучшенные компромиссы между ошибками и затратами в задачах прогнозирования мощности солнечной энергии.

arxiv arXiv cs.LG · 8 д назад

Нет-бесплатной-справедливости: фундаментальные ограничения в системах обучения

Статья вводит теоремы "Нет-бесплатной-справедливости", которые доказывают три фундаментальных ограничения в системах обучения. К ним относятся встроенные компромиссы между справедливостью и затратами, неизбежные расхождения в подгруппах в конечных выборках и ограничения выражаемости моделей, которые препятствуют справедливости независимо от данных. Результаты показывают, что справедливость ограничена структурой задачи, ограничениями данных и возможностями модели, а не только смещёнными данными.

arxiv arXiv cs.LG · 8 д назад

Метаклассификация одноклассовых моделей через ранжирование и ближайших соседей

В этой статье предложена методика метаклассификации одноклассовых классификаторов, при которой модели представляются в виде ранжирований нормальности и используются метрики корреляции ранжирований и ближайших соседей. Метод достигает высокой точности при классификации моделей на основе обучающих наборов данных, алгоритмов и гиперпараметров, и работает даже тогда, когда наборы данных имеют одинаковый класс. Метод эффективно классифицирует наборы данных, рассматривая несколько образцов как один вход, предлагая единое решение для моделей OCC, наборов данных и ранжирований.

arxiv arXiv cs.LG · 8 д назад

McWC: Прогнозирование с цикличностью, тенденцией и корреляцией каналов

McWC представляет модель, которая отдельно улавливает цикличность, тенденцию и межканальную корреляцию в долгосрочном прогнозировании временных рядов. Модель использует многослойную конструкцию цикличности, разложение по волны и многослойный перцептрон для извлечения и объединения информации высокой и низкой частот, при этом разделяя внутриканальные автокорреляции с помощью потерь в частотной области. Эксперименты на шести реальных наборах данных показывают, что McWC достигает наилучших результатов с высокой вычислительной эффективностью.

arxiv arXiv cs.LG · 8 д назад

BLITZ: быстрый и калиброванный непараметрический тест независимости условий

BLITZ представляет двухэтапный метод регрессии для непараметрического теста условной независимости. Сначала он удаляет широкие гладкие зависимости с помощью полиномиальной регрессии, затем применяет неглубокие деревянные регрессии для остаточного анализа нелинейных признаков, что позволяет проводить точные и быстрые тесты с улучшенной калибровкой нулевого распределения по сравнению с существующими методами.

arxiv arXiv cs.AI · 8 д назад

McWC: Прогнозирование с цикличностью, тенденцией и корреляцией каналов

McWC представляет модель, которая отдельно улавливает цикличность, тенденцию и межканальную корреляцию в долгосрочном прогнозировании временных рядов. Модель использует многоуровневую конструкцию цикличности, разложение по волны и многослойный перцептрон для извлечения и объединения информации высокой и низкой частоты, при этом разделяя внутриканальные автокорреляции с помощью потерь в частотной области. Эксперименты на шести реальных наборах данных показывают, что McWC достигает наилучших результатов с высокой вычислительной эффективностью.

arxiv arXiv cs.AI · 9 д назад

Безопасность и приватность в диалогах пользователей с LLM

Исследование 14 727 запросов по безопасности и приватности из 3,2 млн реальных диалогов пользователей с LLM выявляет девять категорий вопросов по безопасности и приватности. Тематический анализ и тестирование ответов показывают, что коммерческие LLM превосходят открытые модели, при этом GPT 5.5 обеспечивает хорошие ответы на 98% запросов, в то время как Llama 4 — на 47%, хотя некоторые коммерческие модели дают несогласованные ответы при повторных запусках.

arxiv arXiv cs.AI · 9 д назад

Первое доказательство, вторая партия: ИИ проверен на задачах исследовательского уровня математики

Исследование оценивало несколько систем ИИ на десяти задачах исследовательского уровня математики, созданных выдающимися математиками. Результаты включают решения, сгенерированные ИИ, решения людей и отчеты редакторов, что позволяет провести подробную оценку производительности ИИ при решении сложных математических задач.

arxiv arXiv cs.CL · 9 д назад

Могут ли языковые модели обнаружить ноль?

Языковые модели размера GPT-2 не могут независимо обнаружить ноль в процессе тестирования, независимо от предобучения. Однако производительность значительно улучшается при обучении на десятках до сотен примеров нуля, а предобучение на языке снижает количество необходимых примеров примерно на 50%.

arxiv arXiv cs.CL · 9 д назад

Падение и восстановление точности маршрутизации в системах агентов предприятий

При увеличении каталога инструментов агентов предприятий от 10 до 110 агентов, точность маршрутизации снижается на 16--23 процентных пункта при запросах с недостаточным описанием. Анализ с использованием оракула выявляет разрывы в извлечении и путанице, при использовании базы векторных представлений для сокращения списка результатов восстанавливается +10--11pp F1. Изучение 1435 изъятий с участием человека подтверждает реальное восстановление +10--17pp, несмотря на более низкую абсолютную производительность.

arxiv arXiv cs.CL · 9 д назад

Пerturbation запроса для надежной оценки больших языковых моделей

Новая система использует возмущение запроса для выявления и фильтрации структурно несогласованных парных сравнений в оценках больших языковых моделей. Внедрение проверок на согласованность на уровне графа до агрегации ранжирований позволяет снизить циклические предпочтения и повысить надежность ранжирований больших языковых моделей.

arxiv arXiv cs.CL · 9 д назад

Концептуальная рамка оценки агентных навыков на масштабе

Мы предлагаем рамку оценки агентных навыков, при которой создаются реалистичные задачи и оцениваются полезность навыков путем выполнения задач. Применение к 500 реальным навыкам генерирует 1000 задач и критериев оценки, оценивая 19 конфигураций агент-моделей на проприетарных и открытых моделях. Результаты показывают значительные различия в соблюдении инструкций и росте производительности, при этом навыки существенно изменяют поведение моделей по сравнению с конфигурациями без навыков.

arxiv arXiv cs.CL · 9 д назад

Двухязычная настройка улучшает автоматическое распознавание речи в языках с низким количеством ресурсов с использованием идентификации языка

Исследование показало, что двухязычная настройка повышает автоматическое распознавание речи в языках с низким количеством ресурсов при точной идентификации языка. Включение токена идентификации языка на этапе инференса улучшает производительность распознавания речи при низкой точности идентификации, особенно в разнообразных парах языков из разных семей и систем письма.