Evaluation & benchmarks
arxiv arXiv cs.LG · 9 д назад

Непараметрический двухвыборочный тест с использованием PReLU-IPM

Исследование вводит PReLU-IPM, новый интегральный показатель вероятности, основанный на нейронном дискриминаторе с одним узлом. Полученный тест PReLU-TST является непараметрическим, согласованным и асимптотически эквивалентным стандартным тестам на основе IPM, демонстрируя более высокую мощность или конкурентную производительность на симулированных и реальных данных.

arxiv arXiv cs.LG · 9 д назад

Каузальный подход к аудиту раскрытий синтетических данных

Модель-независимый подход к аудиту обнаруживает и различает настоящие и фантомные раскрытия в синтетических данных. Он использует только синтетические выводы и контрольную выборку, чтобы проводить статистические проверки, обеспечивая более строгие границы утечки конфиденциальности, чем ранее известные методы, без необходимости доступа к модели или дополнительного обучения.

arxiv arXiv cs.LG · 9 д назад

Гибридная конволюционная VAE для криптовалютных поверхностей волатильности

Конволюционный вариационный автоэнкодер, обученный на 6034 поверхностях опционов Binance для BTC и ETH, достигает ошибки в 0,94-1,56 волатильных пунктов при маскировке от 10% до 50%. Гибридный предиктор снижает ошибку с 7,00 до 0,83 волатильных пунктов при маскировке на 50%, превосходя параметрическую перестройку в структурированных пустотах и обнаруживая аномальные рыночные события без надзора.

arxiv arXiv cs.LG · 9 д назад

Метод резидуального обучения с использованием направляющего контроля ошибки для балансировки пяти шаров на реальных роботах

Метод резидуального обучения с использованием направляющего контроля ошибки обеспечивает стабильную балансировку пяти шаров на реальных роботах, достигая стабильности с второго попытки. Система превосходит временные рамки практики человека и зависит одновременно от направляющей обратной связи и информативного предварительного знания, при этом фиксированное обновление Ньютона с постоянной Якобианом оказывается наиболее надежным.

arxiv arXiv cs.LG · 9 д назад

Статистическая упрощение разделяет инференс от обновления состояния

Новая методика разделяет инференс в машинном обучении от сохранения состояния в системах потока с использованием статистической упрощения. Она целенаправленно инициирует долговременные обновления состояния на основе информативности событий, снижая нагрузку на путь сохранения на 90% без ущерба для полезности в последующих этапах или введения системных ошибок.

arxiv arXiv cs.LG · 9 д назад

Dynestyx: Вероятностное программирование для динамических систем

Dynestyx — это библиотека вероятностного программирования, которая обеспечивает первоклассную поддержку для моделей пространства состояний. Она позволяет пользователям задавать произвольные предпосылки для дискретных или непрерывных динамических систем, проводить инференс на смешанных данных и получать оценки состояний и параметров с принципиальной оценкой неопределённости.

arxiv arXiv cs.LG · 9 д назад

Аналитическая торсия и поглощение спектрального разрыва в производительности постоянного лапласиана

Компактное спектральное представление с использованием чисел Бетти, спектрального разрыва и аналитической торсии сжимает постоянные лапласианы до трех математически обоснованных инвариантов. Этот подход захватывает ключевые предиктивные сигналы из полного спектра, превосходит его в некоторых случаях и снижает вычислительную нагрузку на наборах данных, таких как MNIST, QM-3D и SKEMPI WT.

arxiv arXiv cs.LG · 9 д назад

Многоцентровый бенчмарк для диагностики заболеваний брюшной полости на не Contrast CT

Новый многоцентровый бенчмарк позволяет диагностировать заболевания брюшной полости и генерировать отчеты на основе не контрастного КТ, синтезируя данные контрастного усиления. В наборе данных представлены парные исследования NCCT-CECT и отчеты из двух центров, демонстрируя, что NCCT достигает средних значений AUC по многим органам на внутреннем тестировании 69,1% и на внешнем тестировании 63,1%. Бенчмарк и код опубликованы для поддержки исследований в области безопасных, без контрастных протоколов абдоминальной визуализации.

arxiv arXiv cs.LG · 9 д назад

ActiveSAM: Быстрый и точный открытие-словарный сегментация

ActiveSAM — это рамка без обучения, нулевого шаблона, которая улучшает SAM 3 для открытие-словарного семантического сегментирования за счет определения активного класса, зависящего от изображения. Оно улучшает компромисс между скоростью и точностью, превосходя SegEarth-OV3 на +1,4 mIoU в среднем и работает на 5,5 раз быстрее на больших словарях, при этом обладая сильной устойчивостью к искажениям изображений.

arxiv arXiv cs.LG · 9 д назад

После-последовательные операторы ложной фальсификации не улучшают точность в малых моделях кода

Исследование по измерению показало, что 26 семантических после-последовательных операторов не улучшают точность на выделенных данных по сравнению с Best-of-N в замороженных малых моделях кода. Хотя некоторые операторы снижают использование вычислительных ресурсов или восстанавливают правильные программы, ни один из них не превосходит BoN по точности из-за системных ограничений, таких как барьеры покрытия и ловушки консенсуса. Операция восстановления на уровне выражений (M1) улучшает производительность на HumanEval+ на 12 задач, без вреда или утечки, и демонстрирует стабильные результаты на всех ячейках моделей.

arxiv arXiv cs.LG · 9 д назад

PPAD-сложность для мин-макс оптимизации квадратичных полиномов

Вычисление приближенных стационарных точек мин-макс оптимизации на гиперкубе для квадратичных полиномов является PPAD-сложным. Этот результат верен даже для мультилинейных полиномов, где каждая переменная появляется в максимум в трех мономах, с обратными полиномиальными факторами приближения. В результате, две команды нулевых сумм полиматричных игр доказаны как PPAD-сложные.

arxiv arXiv cs.LG · 9 д назад

TuneJury: Открытый метрический инструмент для выравнивания предпочтений в генерации музыки

TuneJury — это открытая модель парного вознаграждения на уровне экземпляров, которая предсказывает оценки предпочтений музыки на основе текстовых запросов и аудио-фрагментов. Модель обучена на разнообразных данных человеческих предпочтений и демонстрирует сильную обобщаемость, при этом использование калибровки опорных точек позволяет эффективно проводить пост-обучение для систем генерации музыки.

arxiv arXiv cs.LG · 9 д назад

Нейронная модель взаимодействия экспозиции для интерпретируемого эффекта лечения

NEXIS определяет причинные гетерогенные эффекты лечения за счёт обнаружения марковских пустот в данных до начала лечения. Он использует многомодальные и многоканальные измерения и масштабируемые представления с минимальным вмешательством человека, обеспечивая интерпретируемую и действенную аналитику на основе контролируемых экспериментов.

arxiv arXiv cs.LG · 9 д назад

Фильтрованные конформные эллипсоиды для граф-ориентированных временных рядов

Новый метод, называемый фильтрованными конформными эллипсоидами, обеспечивает прогнозные множества для многомерных временных рядов, используя замороженный фильтр состояния для генерации прогнозных средних значений и ковариаций, а затем применяя раздельную конформную калибровку к оценкам Махаланобиса. Метод обеспечивает покрытие при наличии зависимости за счёт сжатия в квоте предиктивного закона, с теоретическими границами, полученными при условиях гауссовой проекции и наблюдаемости, и демонстрирует более тонкие эллипсоиды на граф-ориентированных тестах трафика по сравнению с статическими и нефильтрованными базовыми методами.

arxiv arXiv cs.LG · 9 д назад

TokenPilot: Эффективное управление контекстом для агентов LLM

TokenPilot снижает расходы на инференс на 61% до 87% как в изолированном, так и в непрерывном режимах, превосходя предыдущие системы по эффективности расходов, при этом сохраняя конкурентную производительность. Оно использует сжатие, учитывающее ввод, и эвакуацию, учитывающую жизненный цикл, для стабилизации промптов и эффективного управления сегментами контекста.

arxiv arXiv cs.LG · 9 д назад

ExpRL: Исследовательская RL для среднего обучения LLM

ExpRL вводит новую методику среднего обучения для LLM, используя данные вопрос-ответ, написанные людьми, как основу вознаграждения. Вместо имитации ссылочных решений, она строит специфические для задачи критерии оценки для вознаграждения промежуточных шагов рассуждения, что позволяет лучше инициализировать спарсенные вознаграждения RL и превосходить SFT, спарсенный GRPO и самодистилляцию на задачах математического мышления.

arxiv arXiv cs.LG · 9 д назад

HAMON: Пассивная оптическая система прогнозирования

HAMON использует пассивную оптическую дифракцию для генерации прогнозов и превосходит цифровые базовые модели по ETTm2 на всех горизонтах и по ETTh2 на всех горизонтах, кроме самого длинного. Оно достигает на 14% меньшей ошибки MSE и работает без тренируемой цифровой смеси, опираясь вместо этого на физическое распространение оптических волн.

arxiv arXiv cs.LG · 9 д назад

KVEraser: Эффективное локальное удаление контекста в LLMs

KVEraser обеспечивает эффективное локальное удаление контекста в больших языковых моделях, заменяя только состояния кэша KV для удаленного участка на обученные направляющие состояния. Оно достигает почти полной переработки производительности на задачах в области применения и обеспечивает рост задержки на 24% по сравнению с ростом задержки в 17,6 раз при полной переработке, с увеличением скорости до 3--4 раз на задачах по вопросам длинных документов.

arxiv arXiv cs.LG · 9 д назад

Атака RING: использование дифференциальной конфиденциальности в распределённом обучении для скрытия сигналов бэкдора

Новая атака RING использует дифференциальную конфиденциальность в распределённом обучении для скрытия сигналов бэкдора при максимизации их воздействия. Она достигает 90,3% успешности атаки против передовых защит, что на 26,08 раз превышает базовые методы, и выявляет критическую уязвимость в DP-FL из-за встроенной маскировки вредоносных обновлений.

arxiv arXiv cs.LG · 9 д назад

Фаза в нейронных представлениях: внутренний тест Оппенгейма-Лима

Классификаторы изображений, такие как PRISM2D, GFNet и ViT-B/16, показывают, что фаза, а не модуль, определяет предсказания в скрытых слоях. ResNet-50 выявляет скрытый код знака в поздних блоках, что указывает на существование идентичности фазы/знака во всех архитектурах, хотя она выражается по-разному из-за механизмов активации и выдачи результатов.