Reasoning models
arxiv arXiv cs.AI · 9 д назад

Прогресс, обусловленный ИИ, в стабильных меню общественных благ

Эксперименты по теме "Стабильные меню общественных благ" на конференции EC 2025 показывают, что промпты, основанные на человеческой интуиции, улучшают производительность ЛЛМ и мульти-переводные взаимодействия усиливают амбициозные шаги. Однако при сравнении с первым годом аспиранта, использующим непубликованный рукописный материал, ЛЛМ оказывается слегка менее эффективным.

arxiv arXiv cs.AI · 9 д назад

PACT: Делегирование малого языкового модели для реактивного обучения с подкреплением

PACT объединяет реактивную политику RL с малой языковой моделью на 2 миллиона параметров для генерации и проверки планов действий. План от малой языковой модели выполняется напрямую, если он подтверждается как безопасный, выполнимый и полный, что позволяет обойти политику RL. PACT превосходит базовые методы на трёх всё более сложных средах FrozenLake.

arxiv arXiv cs.AI · 9 д назад

ActiveSAM: Быстрый и точный анализ семантической сегментации с открытым словарем

ActiveSAM — это рамка без обучения и с нулевым обучением, которая улучшает SAM 3 для семантической сегментации с открытым словарем, определяя активный набор классов, зависящий от изображения. Оно улучшает баланс между скоростью и точностью, превосходя SegEarth-OV3 на +1,4 mIoU в среднем и работает до 5,5 раз быстрее на датасетах с большим словарем, при этом демонстрируя сильную устойчивость при искажении изображений.

arxiv arXiv cs.AI · 9 д назад

FusionRS: Первый масштабный датасет RGB-инфракрасного дистанционного зондирования

FusionRS представляет первый масштабный датасет RGB-инфракрасно-текстового типа для моделирования визуально-языковых моделей дистанционного зондирования. Он синхронизирует RGB и инфракрасные изображения с инфракрасно-осознанными описаниями, позволяя использовать двумодальные визуально-языковые основные модели. Эксперименты показывают улучшение синхронизации RGB-инфракрасных изображений, поиска и описания, при этом исследования с устранением факторов подтверждают критическую роль модальности-специфического текстового надзора.

arxiv arXiv cs.AI · 9 д назад

Фаза в нейронных представлениях: внутренний тест Оппенгейма-Лима

Классификаторы изображений, такие как PRISM2D, GFNet и ViT-B/16, показывают, что фаза, а не модуль, определяет предсказания в скрытых слоях. ResNet-50 раскрывает скрытый код знака в поздних блоках, что указывает на то, что идентичность фазы/знака существует во всех архитектурах, хотя она выражается по-разному из-за механизмов активации и выдачи.

arxiv arXiv cs.LG · 9 д назад

Факторизованные нейронные операторы разбивают динамические и устойчивые реакции

Факторизованные нейронные операторы (FaNO) разбивают спектральные представления на эквивариантные динамические и инвариантные устойчивые реакции. Такая факторизованная структура обеспечивает лучшую интерпретируемость, обобщение и стабильные предсказания на разных масштабах, областях и физических режимах.

arxiv arXiv cs.LG · 9 д назад

CEAP снижает дисперсию в открытии циркуитов в LLM

CEAP, новый метод открытия циркуитов, значительно снижает дисперсию повторного выбора по сравнению с EAP-IG. В статье показывается, что дисперсия при переформулировке возникает из-за активации разных циркуитов промптовыми шаблонами, что указывает на то, что LLM трудно направлять при различных входах. Дисперсия по образцам в целом является бенефичной, поскольку плохие оценки неподлинности возникают из-за селективного масштабирования вклада, а не из-за дефектов циркуитов.

arxiv arXiv cs.LG · 9 д назад

Адаптивный функциональный градиентный спуск с гарантиями сходимости

Мы предлагаем новый алгоритм функционального градиентного спуска, который адаптирует свою представляемость во время оптимизации. Метод достигает сходимости к стационарной точке при гладких потерь и к глобальному минимуму при гладкости и условии Поляка-Лојасевича, несмотря на использование конечномерных приближений. Он превосходит как фиксированные приближения FGD, так и базовые нейронные сети на задачах регрессии, решения уравнений в частных производных и компьютерного зрения.

arxiv arXiv cs.LG · 9 д назад

Единая кausalная классификация источников смещений распределений в RL

Данная статья предлагает единую кausalную классификацию источников смещений распределений в репликационном обучении, связывая обобщение в условиях ID/OOD с нестационарными ситуациями. В работе взаимодействие агента и среды разбивается с помощью рамки POMDP, идентифицируются смещения внутреннего, агент-ориентированного и внешнего, среды-ориентированного характера, с явными, скрытыми и гибридными типами, определенными границей смещения во времени. В работе представлено оценочное средство для измерения влияния смещения через метрики деградации и восстановления производительности, что позволяет проводить систематический анализ устойчивости RL.

arxiv arXiv cs.LG · 9 д назад

Ключевые свойства для эффективного рассуждения код-интерпретатора

Исследование выявляет внешние (ключевые токены) и внутренние (когнитивные поведения) свойства, которые улучшают рассуждение код-интерпретатора в больших языковых моделях. Модели с более сильным рассуждением демонстрируют более высокую частоту использования верификации, отката и обратного вывода, при этом эти свойства повышают производительность во время инференса и обучения, снижают избыточное мышление и повышают эффективность токенов.

arxiv arXiv cs.LG · 9 д назад

CrossMaps: Семантическая картирование с учетом уверенности для навигации ровера

CrossMaps — это реальное время, с учетом уверенности, семантическое картирование, которое использует данные RGB-D для создания карт, доступных для запросов на языке. Оно интегрирует многомасштабные векторные вложения CLIP с архитектурой двойной памяти — краткосрочной и долгосрочной памяти — для агрегации визуальных наблюдений и стимулирования согласованных, уверенных ячеек как постоянных семантических ориентиров. Система позволяет использовать естественные языковые запросы для направления навигации ровера через семантические тепловые карты.

arxiv arXiv cs.LG · 9 д назад

CircuitLasso: масштабируемое обучение схем для интерпретируемости LLM

CircuitLasso обеспечивает масштабируемое обучение схем в больших языковых моделях с использованием разреженной линейной регрессии. Он восстанавливает схемы с структурной точностью, соответствующей самым передовым методам, при значительно меньших вычислительных затратах, и демонстрирует семантическое распространение, понятное для человека, через компоненты модели. Полученные схемы обеспечивают сопоставимую производительность на задаче обобщения на области с уменьшенными затратами.

arxiv arXiv cs.LG · 9 д назад

Гибридная конволюционная VAE для криптовалютных поверхностей волатильности

Конволюционный вариационный автоэнкодер, обученный на 6034 поверхностях опционов Binance для BTC и ETH, достигает ошибки в 0,94-1,56 волатильных пунктов при маскировке от 10% до 50%. Гибридный предиктор снижает ошибку с 7,00 до 0,83 волатильных пунктов при маскировке на 50%, превосходя параметрическую перестройку в структурированных пустотах и обнаруживая аномальные рыночные события без надзора.

arxiv arXiv cs.LG · 9 д назад

Метод резидуального обучения с использованием направляющего контроля ошибки для балансировки пяти шаров на реальных роботах

Метод резидуального обучения с использованием направляющего контроля ошибки обеспечивает стабильную балансировку пяти шаров на реальных роботах, достигая стабильности с второго попытки. Система превосходит временные рамки практики человека и зависит одновременно от направляющей обратной связи и информативного предварительного знания, при этом фиксированное обновление Ньютона с постоянной Якобианом оказывается наиболее надежным.

arxiv arXiv cs.LG · 9 д назад

Dynestyx: Вероятностное программирование для динамических систем

Dynestyx — это библиотека вероятностного программирования, которая обеспечивает первоклассную поддержку для моделей пространства состояний. Она позволяет пользователям задавать произвольные предпосылки для дискретных или непрерывных динамических систем, проводить инференс на смешанных данных и получать оценки состояний и параметров с принципиальной оценкой неопределённости.

arxiv arXiv cs.LG · 9 д назад

Определение поведения агентов через процедуры траекторий

Мы предлагаем метод идентификации агентов по их поведенческим отпечаткам, достигающий точности 85,7% при присвоении неизвестных траекторий правильным агентам. Используя ProcGrep, мы анализируем поведение кодирующих агентов в SWE-Bench, и находим, что модели из схожих периодов выпуска или distilled друг от друга демонстрируют более близкую поведенческую схожесть, с показателем дивергенции Дженсена-Шанна 0,25.

arxiv arXiv cs.LG · 9 д назад

Аналитическая торсия и поглощение спектрального разрыва в производительности постоянного лапласиана

Компактное спектральное представление с использованием чисел Бетти, спектрального разрыва и аналитической торсии сжимает постоянные лапласианы до трех математически обоснованных инвариантов. Этот подход захватывает ключевые предиктивные сигналы из полного спектра, превосходит его в некоторых случаях и снижает вычислительную нагрузку на наборах данных, таких как MNIST, QM-3D и SKEMPI WT.

arxiv arXiv cs.LG · 9 д назад

PACT: Делегирование малого языкового модели для реактивного обучения с подкреплением

PACT объединяет реактивную политику обучения с подкреплением с малой языковой моделью на 2 миллиона параметров для генерации и проверки планов действий. План от малой языковой модели выполняется напрямую, если он подтверждается в симуляции, без необходимости возвращаться к политике обучения с подкреплением и переподготовки. PACT превосходит базовые методы на трёх всё более сложных средах FrozenLake.

arxiv arXiv cs.LG · 9 д назад

ActiveSAM: Быстрый и точный открытие-словарный сегментация

ActiveSAM — это рамка без обучения, нулевого шаблона, которая улучшает SAM 3 для открытие-словарного семантического сегментирования за счет определения активного класса, зависящего от изображения. Оно улучшает компромисс между скоростью и точностью, превосходя SegEarth-OV3 на +1,4 mIoU в среднем и работает на 5,5 раз быстрее на больших словарях, при этом обладая сильной устойчивостью к искажениям изображений.

arxiv arXiv cs.LG · 9 д назад

Нейронная модель взаимодействия экспозиции для интерпретируемого эффекта лечения

NEXIS определяет причинные гетерогенные эффекты лечения за счёт обнаружения марковских пустот в данных до начала лечения. Он использует многомодальные и многоканальные измерения и масштабируемые представления с минимальным вмешательством человека, обеспечивая интерпретируемую и действенную аналитику на основе контролируемых экспериментов.