Reasoning models
arxiv arXiv cs.AI · 10 д назад

CircuitLasso: масштабируемый метод обучения разреженных схем для интерпретируемости больших языковых моделей

CircuitLasso предлагает масштабируемый метод обучения разреженных схем в больших языковых моделях с использованием разреженной линейной регрессии. Он достигает структурной точности, сравнимой с методами, основанными на вмешательстве, при значительно меньших вычислительных затратах, одновременно обеспечивая эффективное обнаружение распространения семантических признаков и улучшая производительность на задачах обобщения в области с уменьшенными затратами.

arxiv arXiv cs.AI · 10 д назад

Каузальная модель теории разума в конфликте ИИ

В этой статье предложена структурная кausalная модель, использующая направленный ациклический граф для определения условий, при которых вступает в силу кausalная необходимость вовлечения теории разума в конфликте человек-машин. Модель выявляет четыре внешние условия, пять медиаторов и три кausalные цепочки активации ToM, с эпистемической точностью как основным результатом. Предлагается ресурсно-рациональная модель социального мышления ИИ, подтвержденная симуляцией и исследованиями человек-машин.

arxiv arXiv cs.AI · 10 д назад

Текстовые отзывы имеют ограниченное влияние в рекомендательных моделях

Исследование показывает, что хотя текстовые сигналы отзывов могут быть объединены с коллаборативными данными, их междусобные вклады остаются ограниченными по сравнению с коллаборативными сигналами в моделях факторизации матриц. Адаптивное объединение и механизмы межвекторного внимания улучшают гибкость представлений, но не значительно повышают производительность на различных наборах данных.

arxiv arXiv cs.AI · 10 д назад

Фреймворк агентного LLM для классификации кодов HTS

Предлагается консенсусный агентный фреймворк больших языковых моделей для точной классификации 10-значных кодов Согласованной тарифной системы в морской логистике Канады. На 3300 экспертно обозначенных записях о продуктах модель показывает, что детальная классификация HTS остается сложной для продвинутых LLM, подчеркивая необходимость в работе, основанной на доказательствах, учитывающей неопределенность и включающей человека в процесс.

arxiv arXiv cs.AI · 10 д назад

Прогресс, обусловленный ИИ, в стабильных меню общественных благ

Эксперименты по теме "Стабильные меню общественных благ" на конференции EC 2025 показывают, что промпты, основанные на человеческой интуиции, улучшают производительность ЛЛМ и мульти-переводные взаимодействия усиливают амбициозные шаги. Однако при сравнении с первым годом аспиранта, использующим непубликованный рукописный материал, ЛЛМ оказывается слегка менее эффективным.

arxiv arXiv cs.AI · 10 д назад

PACT: Делегирование малого языкового модели для реактивного обучения с подкреплением

PACT объединяет реактивную политику RL с малой языковой моделью на 2 миллиона параметров для генерации и проверки планов действий. План от малой языковой модели выполняется напрямую, если он подтверждается как безопасный, выполнимый и полный, что позволяет обойти политику RL. PACT превосходит базовые методы на трёх всё более сложных средах FrozenLake.

arxiv arXiv cs.AI · 10 д назад

ActiveSAM: Быстрый и точный анализ семантической сегментации с открытым словарем

ActiveSAM — это рамка без обучения и с нулевым обучением, которая улучшает SAM 3 для семантической сегментации с открытым словарем, определяя активный набор классов, зависящий от изображения. Оно улучшает баланс между скоростью и точностью, превосходя SegEarth-OV3 на +1,4 mIoU в среднем и работает до 5,5 раз быстрее на датасетах с большим словарем, при этом демонстрируя сильную устойчивость при искажении изображений.

arxiv arXiv cs.AI · 10 д назад

FusionRS: Первый масштабный датасет RGB-инфракрасного дистанционного зондирования

FusionRS представляет первый масштабный датасет RGB-инфракрасно-текстового типа для моделирования визуально-языковых моделей дистанционного зондирования. Он синхронизирует RGB и инфракрасные изображения с инфракрасно-осознанными описаниями, позволяя использовать двумодальные визуально-языковые основные модели. Эксперименты показывают улучшение синхронизации RGB-инфракрасных изображений, поиска и описания, при этом исследования с устранением факторов подтверждают критическую роль модальности-специфического текстового надзора.

arxiv arXiv cs.AI · 10 д назад

Фаза в нейронных представлениях: внутренний тест Оппенгейма-Лима

Классификаторы изображений, такие как PRISM2D, GFNet и ViT-B/16, показывают, что фаза, а не модуль, определяет предсказания в скрытых слоях. ResNet-50 раскрывает скрытый код знака в поздних блоках, что указывает на то, что идентичность фазы/знака существует во всех архитектурах, хотя она выражается по-разному из-за механизмов активации и выдачи.

arxiv arXiv cs.LG · 10 д назад

Факторизованные нейронные операторы разбивают динамические и устойчивые реакции

Факторизованные нейронные операторы (FaNO) разбивают спектральные представления на эквивариантные динамические и инвариантные устойчивые реакции. Такая факторизованная структура обеспечивает лучшую интерпретируемость, обобщение и стабильные предсказания на разных масштабах, областях и физических режимах.

arxiv arXiv cs.LG · 10 д назад

CEAP снижает дисперсию в открытии циркуитов в LLM

CEAP, новый метод открытия циркуитов, значительно снижает дисперсию повторного выбора по сравнению с EAP-IG. В статье показывается, что дисперсия при переформулировке возникает из-за активации разных циркуитов промптовыми шаблонами, что указывает на то, что LLM трудно направлять при различных входах. Дисперсия по образцам в целом является бенефичной, поскольку плохие оценки неподлинности возникают из-за селективного масштабирования вклада, а не из-за дефектов циркуитов.

arxiv arXiv cs.LG · 10 д назад

Адаптивный функциональный градиентный спуск с гарантиями сходимости

Мы предлагаем новый алгоритм функционального градиентного спуска, который адаптирует свою представляемость во время оптимизации. Метод достигает сходимости к стационарной точке при гладких потерь и к глобальному минимуму при гладкости и условии Поляка-Лојасевича, несмотря на использование конечномерных приближений. Он превосходит как фиксированные приближения FGD, так и базовые нейронные сети на задачах регрессии, решения уравнений в частных производных и компьютерного зрения.

arxiv arXiv cs.LG · 10 д назад

Единая кausalная классификация источников смещений распределений в RL

Данная статья предлагает единую кausalную классификацию источников смещений распределений в репликационном обучении, связывая обобщение в условиях ID/OOD с нестационарными ситуациями. В работе взаимодействие агента и среды разбивается с помощью рамки POMDP, идентифицируются смещения внутреннего, агент-ориентированного и внешнего, среды-ориентированного характера, с явными, скрытыми и гибридными типами, определенными границей смещения во времени. В работе представлено оценочное средство для измерения влияния смещения через метрики деградации и восстановления производительности, что позволяет проводить систематический анализ устойчивости RL.

arxiv arXiv cs.LG · 10 д назад

Ключевые свойства для эффективного рассуждения код-интерпретатора

Исследование выявляет внешние (ключевые токены) и внутренние (когнитивные поведения) свойства, которые улучшают рассуждение код-интерпретатора в больших языковых моделях. Модели с более сильным рассуждением демонстрируют более высокую частоту использования верификации, отката и обратного вывода, при этом эти свойства повышают производительность во время инференса и обучения, снижают избыточное мышление и повышают эффективность токенов.

arxiv arXiv cs.LG · 10 д назад

CrossMaps: Семантическая картирование с учетом уверенности для навигации ровера

CrossMaps — это реальное время, с учетом уверенности, семантическое картирование, которое использует данные RGB-D для создания карт, доступных для запросов на языке. Оно интегрирует многомасштабные векторные вложения CLIP с архитектурой двойной памяти — краткосрочной и долгосрочной памяти — для агрегации визуальных наблюдений и стимулирования согласованных, уверенных ячеек как постоянных семантических ориентиров. Система позволяет использовать естественные языковые запросы для направления навигации ровера через семантические тепловые карты.

arxiv arXiv cs.LG · 10 д назад

CircuitLasso: масштабируемое обучение схем для интерпретируемости LLM

CircuitLasso обеспечивает масштабируемое обучение схем в больших языковых моделях с использованием разреженной линейной регрессии. Он восстанавливает схемы с структурной точностью, соответствующей самым передовым методам, при значительно меньших вычислительных затратах, и демонстрирует семантическое распространение, понятное для человека, через компоненты модели. Полученные схемы обеспечивают сопоставимую производительность на задаче обобщения на области с уменьшенными затратами.

arxiv arXiv cs.LG · 10 д назад

Гибридная конволюционная VAE для криптовалютных поверхностей волатильности

Конволюционный вариационный автоэнкодер, обученный на 6034 поверхностях опционов Binance для BTC и ETH, достигает ошибки в 0,94-1,56 волатильных пунктов при маскировке от 10% до 50%. Гибридный предиктор снижает ошибку с 7,00 до 0,83 волатильных пунктов при маскировке на 50%, превосходя параметрическую перестройку в структурированных пустотах и обнаруживая аномальные рыночные события без надзора.

arxiv arXiv cs.LG · 10 д назад

Метод резидуального обучения с использованием направляющего контроля ошибки для балансировки пяти шаров на реальных роботах

Метод резидуального обучения с использованием направляющего контроля ошибки обеспечивает стабильную балансировку пяти шаров на реальных роботах, достигая стабильности с второго попытки. Система превосходит временные рамки практики человека и зависит одновременно от направляющей обратной связи и информативного предварительного знания, при этом фиксированное обновление Ньютона с постоянной Якобианом оказывается наиболее надежным.

arxiv arXiv cs.LG · 10 д назад

Dynestyx: Вероятностное программирование для динамических систем

Dynestyx — это библиотека вероятностного программирования, которая обеспечивает первоклассную поддержку для моделей пространства состояний. Она позволяет пользователям задавать произвольные предпосылки для дискретных или непрерывных динамических систем, проводить инференс на смешанных данных и получать оценки состояний и параметров с принципиальной оценкой неопределённости.

arxiv arXiv cs.LG · 10 д назад

Определение поведения агентов через процедуры траекторий

Мы предлагаем метод идентификации агентов по их поведенческим отпечаткам, достигающий точности 85,7% при присвоении неизвестных траекторий правильным агентам. Используя ProcGrep, мы анализируем поведение кодирующих агентов в SWE-Bench, и находим, что модели из схожих периодов выпуска или distilled друг от друга демонстрируют более близкую поведенческую схожесть, с показателем дивергенции Дженсена-Шанна 0,25.