Evaluation & benchmarks
arxiv arXiv cs.AI · 9 д назад

Байесовские проверки выявляют несогласованные временные линии оценки ИИ

Публичные архивы оценки ИИ показывают, что один конечный результат может возникнуть из двух различных предшествующих историй, с оценками времени достижения 95% производительности на уровне 23,03 или 75,13. Модель, учитывающая выбор кандидатов, несущественно неудовлетворяет синтетическому восстановлению и калибровке неопределённости, и отклоняется при фиксированных проверках. Протокол архивирования и разрешения подтверждает временные границы и опровергает необоснованные утверждения о фронтовых достижениях.

arxiv arXiv cs.AI · 9 д назад

TuneJury: Открытый метрический инструмент для выравнивания предпочтений в генерации музыки

TuneJury — это открытая модель парного вознаграждения на уровне экземпляров, которая предсказывает оценки предпочтений музыки на основе текстовых запросов и аудио-фрагментов. Модель обучена на разнообразных данных человеческих предпочтений и демонстрирует сильную обобщаемость, при этом калибровка анкоров позволяет эффективно проводить пост-обучение для систем генерации музыки.

arxiv arXiv cs.AI · 9 д назад

TokenPilot: Эффективное управление контекстом для агентов LLM

TokenPilot снижает затраты на инференс на 61% до 87% как в изолированном, так и в непрерывном режимах, превосходя предыдущие системы по эффективности затрат, при этом сохраняя конкурентную производительность. Используя компакцию, учитывающую ввод, и эвакуацию, учитывающую жизненный цикл, TokenPilot обеспечивает непрерывность кэширования промптов и минимизирует объём токенов, не вводя несоответствий префиксов.

arxiv arXiv cs.AI · 9 д назад

HAMON: Пассивная оптическая предсказательная система для прогнозирования временных рядов на долгосрочной основе

HAMON использует пассивные оптические компоненты для выполнения прогнозирования временных рядов на долгосрочной основе, превосходя лучшие цифровые модели на ETTm2 во всех горизонтах и на ETTh2 на всех, кроме самого длинного горизонта. Оно достигает снижения MSE до 14% и использует физическое распространение оптического сигнала без тренируемых цифровых слоев, демонстрируя, что пассивное оптическое смешивание может обеспечивать конкурентные прогнозы.

arxiv arXiv cs.AI · 9 д назад

Фаза в нейронных представлениях: внутренний тест Оппенгейма-Лима

Классификаторы изображений, такие как PRISM2D, GFNet и ViT-B/16, показывают, что фаза, а не модуль, определяет предсказания в скрытых слоях. ResNet-50 раскрывает скрытый код знака в поздних блоках, что указывает на то, что идентичность фазы/знака существует во всех архитектурах, хотя она выражается по-разному из-за механизмов активации и выдачи.

arxiv arXiv cs.LG · 9 д назад

Факторизованные нейронные операторы разбивают динамические и устойчивые реакции

Факторизованные нейронные операторы (FaNO) разбивают спектральные представления на эквивариантные динамические и инвариантные устойчивые реакции. Такая факторизованная структура обеспечивает лучшую интерпретируемость, обобщение и стабильные предсказания на разных масштабах, областях и физических режимах.

arxiv arXiv cs.LG · 9 д назад

CEAP снижает дисперсию в открытии циркуитов в LLM

CEAP, новый метод открытия циркуитов, значительно снижает дисперсию повторного выбора по сравнению с EAP-IG. В статье показывается, что дисперсия при переформулировке возникает из-за активации разных циркуитов промптовыми шаблонами, что указывает на то, что LLM трудно направлять при различных входах. Дисперсия по образцам в целом является бенефичной, поскольку плохие оценки неподлинности возникают из-за селективного масштабирования вклада, а не из-за дефектов циркуитов.

arxiv arXiv cs.LG · 9 д назад

Адаптивный функциональный градиентный спуск с гарантиями сходимости

Мы предлагаем новый алгоритм функционального градиентного спуска, который адаптирует свою представляемость во время оптимизации. Метод достигает сходимости к стационарной точке при гладких потерь и к глобальному минимуму при гладкости и условии Поляка-Лојасевича, несмотря на использование конечномерных приближений. Он превосходит как фиксированные приближения FGD, так и базовые нейронные сети на задачах регрессии, решения уравнений в частных производных и компьютерного зрения.

arxiv arXiv cs.LG · 9 д назад

Единая кausalная классификация источников смещений распределений в RL

Данная статья предлагает единую кausalную классификацию источников смещений распределений в репликационном обучении, связывая обобщение в условиях ID/OOD с нестационарными ситуациями. В работе взаимодействие агента и среды разбивается с помощью рамки POMDP, идентифицируются смещения внутреннего, агент-ориентированного и внешнего, среды-ориентированного характера, с явными, скрытыми и гибридными типами, определенными границей смещения во времени. В работе представлено оценочное средство для измерения влияния смещения через метрики деградации и восстановления производительности, что позволяет проводить систематический анализ устойчивости RL.

arxiv arXiv cs.LG · 9 д назад

CircuitLasso: масштабируемое обучение схем для интерпретируемости LLM

CircuitLasso обеспечивает масштабируемое обучение схем в больших языковых моделях с использованием разреженной линейной регрессии. Он восстанавливает схемы с структурной точностью, соответствующей самым передовым методам, при значительно меньших вычислительных затратах, и демонстрирует семантическое распространение, понятное для человека, через компоненты модели. Полученные схемы обеспечивают сопоставимую производительность на задаче обобщения на области с уменьшенными затратами.

arxiv arXiv cs.LG · 9 д назад

Непараметрический двухвыборочный тест с использованием PReLU-IPM

Исследование вводит PReLU-IPM, новый интегральный показатель вероятности, основанный на нейронном дискриминаторе с одним узлом. Полученный тест PReLU-TST является непараметрическим, согласованным и асимптотически эквивалентным стандартным тестам на основе IPM, демонстрируя более высокую мощность или конкурентную производительность на симулированных и реальных данных.

arxiv arXiv cs.LG · 9 д назад

Каузальный подход к аудиту раскрытий синтетических данных

Модель-независимый подход к аудиту обнаруживает и различает настоящие и фантомные раскрытия в синтетических данных. Он использует только синтетические выводы и контрольную выборку, чтобы проводить статистические проверки, обеспечивая более строгие границы утечки конфиденциальности, чем ранее известные методы, без необходимости доступа к модели или дополнительного обучения.

arxiv arXiv cs.LG · 9 д назад

Гибридная конволюционная VAE для криптовалютных поверхностей волатильности

Конволюционный вариационный автоэнкодер, обученный на 6034 поверхностях опционов Binance для BTC и ETH, достигает ошибки в 0,94-1,56 волатильных пунктов при маскировке от 10% до 50%. Гибридный предиктор снижает ошибку с 7,00 до 0,83 волатильных пунктов при маскировке на 50%, превосходя параметрическую перестройку в структурированных пустотах и обнаруживая аномальные рыночные события без надзора.

arxiv arXiv cs.LG · 9 д назад

Метод резидуального обучения с использованием направляющего контроля ошибки для балансировки пяти шаров на реальных роботах

Метод резидуального обучения с использованием направляющего контроля ошибки обеспечивает стабильную балансировку пяти шаров на реальных роботах, достигая стабильности с второго попытки. Система превосходит временные рамки практики человека и зависит одновременно от направляющей обратной связи и информативного предварительного знания, при этом фиксированное обновление Ньютона с постоянной Якобианом оказывается наиболее надежным.

arxiv arXiv cs.LG · 9 д назад

Статистическая упрощение разделяет инференс от обновления состояния

Новая методика разделяет инференс в машинном обучении от сохранения состояния в системах потока с использованием статистической упрощения. Она целенаправленно инициирует долговременные обновления состояния на основе информативности событий, снижая нагрузку на путь сохранения на 90% без ущерба для полезности в последующих этапах или введения системных ошибок.

arxiv arXiv cs.LG · 9 д назад

Dynestyx: Вероятностное программирование для динамических систем

Dynestyx — это библиотека вероятностного программирования, которая обеспечивает первоклассную поддержку для моделей пространства состояний. Она позволяет пользователям задавать произвольные предпосылки для дискретных или непрерывных динамических систем, проводить инференс на смешанных данных и получать оценки состояний и параметров с принципиальной оценкой неопределённости.

arxiv arXiv cs.LG · 9 д назад

Аналитическая торсия и поглощение спектрального разрыва в производительности постоянного лапласиана

Компактное спектральное представление с использованием чисел Бетти, спектрального разрыва и аналитической торсии сжимает постоянные лапласианы до трех математически обоснованных инвариантов. Этот подход захватывает ключевые предиктивные сигналы из полного спектра, превосходит его в некоторых случаях и снижает вычислительную нагрузку на наборах данных, таких как MNIST, QM-3D и SKEMPI WT.

arxiv arXiv cs.LG · 9 д назад

Многоцентровый бенчмарк для диагностики заболеваний брюшной полости на не Contrast CT

Новый многоцентровый бенчмарк позволяет диагностировать заболевания брюшной полости и генерировать отчеты на основе не контрастного КТ, синтезируя данные контрастного усиления. В наборе данных представлены парные исследования NCCT-CECT и отчеты из двух центров, демонстрируя, что NCCT достигает средних значений AUC по многим органам на внутреннем тестировании 69,1% и на внешнем тестировании 63,1%. Бенчмарк и код опубликованы для поддержки исследований в области безопасных, без контрастных протоколов абдоминальной визуализации.

arxiv arXiv cs.LG · 9 д назад

ActiveSAM: Быстрый и точный открытие-словарный сегментация

ActiveSAM — это рамка без обучения, нулевого шаблона, которая улучшает SAM 3 для открытие-словарного семантического сегментирования за счет определения активного класса, зависящего от изображения. Оно улучшает компромисс между скоростью и точностью, превосходя SegEarth-OV3 на +1,4 mIoU в среднем и работает на 5,5 раз быстрее на больших словарях, при этом обладая сильной устойчивостью к искажениям изображений.

arxiv arXiv cs.LG · 9 д назад

После-последовательные операторы ложной фальсификации не улучшают точность в малых моделях кода

Исследование по измерению показало, что 26 семантических после-последовательных операторов не улучшают точность на выделенных данных по сравнению с Best-of-N в замороженных малых моделях кода. Хотя некоторые операторы снижают использование вычислительных ресурсов или восстанавливают правильные программы, ни один из них не превосходит BoN по точности из-за системных ограничений, таких как барьеры покрытия и ловушки консенсуса. Операция восстановления на уровне выражений (M1) улучшает производительность на HumanEval+ на 12 задач, без вреда или утечки, и демонстрирует стабильные результаты на всех ячейках моделей.