Reasoning models — korshunov.ai

Reasoning models Страница 1 / 35

STARE: Регулирование преимуществ на уровне токенов с использованием сюрприза для стабильности энтропии политики

STARE решает проблему коллапса энтропии политики в методах обучения с усилением на основе GRPO, выявляя критические подмножества токенов с использованием квантилей сюрприза и пересчитывая их преимущества. Он обеспечивает стабильность энтропии политики на разных масштабах модели и задач, превосходя DAPO и другие базовые методы на 4%-8% на AIME24 и AIME25, с постоянным балансом между исследованием и эксплуатацией.

arxiv arXiv cs.LG · 8 д назад

TxBench-PP: производительность ИИ-агента в преследовании фармакологии

TxBench-PP — это проверяемый бенчмарк для преследования фармакологии маломолекул, проверяющий способность ИИ-агентов делать точные выводы на основе реальных данных о пробах. В 16 конфигурациях моделей-инструментов ни одна система не демонстрировала надежную способность принимать правильные решения в области преследования фармакологии, лучшая производительность составила 59,3% (Claude Opus 4.8 / Pi) и 55,3% (GPT-5.5 / Pi) по попыткам достижения конечных результатов.

arxiv arXiv cs.LG · 8 д назад

TGO-I: Спектральная геометрия визуальных трансформеров

TGO-I анализирует спектральную геометрию визуальных трансформеров, используя ViT-Small/16, обученный на ImageNet-100. Он показывает рост использования размерностей и снижение анизотропии, при этом спектры становятся плоскими, а спектральная энтропия растёт. Последний токен CLS демонстрирует наибольшую эффективную размерность и наименьшую анизотропию, что указывает на широкое распределение вариативности по размерностям.

arxiv arXiv cs.LG · 8 д назад

Графовые нейронные сети ускоряют решатели на основе алгебраической мультигрид для давления

Графовая нейронная сеть улучшает решатели на основе алгебраической мультигрид за счёт предсказания оптимальных коэффициентов полиномов для разреженных псевдообратных операторов. Метод снижает количество итераций V-циклов и обеспечивает ускорение времени выполнения от 4% до 37% на различных тестах, при этом демонстрирует устойчивую производительность на сетках, в десять раз превышающих объём обучающих данных, и на неизвестных промышленных задачах, таких как AirfRANS.

arxiv arXiv cs.LG · 8 д назад

OneCanvas: Понимание 3D-сцены через перепроекцию панорамы

OneCanvas обеспечивает понимание 3D-сцены в моделях Вид-Язык путем агрегации признаков патчей на единую панорамную панель с использованием координат 3D-мира. Оно достигает лучших результатов на SQA3D и VSI-Bench, и обобщается на данные вне распределения на SPBench, используя значительно меньшее количество вычислений на обучении по сравнению с существующими методами.

arxiv arXiv cs.LG · 8 д назад

SCAN: Многоуровневое кластерное моделирование для обнаружения аномалий в временных рядах

SCAN улучшает методы обнаружения аномалий в временных рядах на основе реконструкции, интегрируя многоуровневое кластерное моделирование, основанное на окрестностях. Метод использует представления центров кластеров для ограничения реконструкции нормальных паттернов и получает оценку вероятности аномалии на основе вероятности принадлежности к кластеру и ошибки реконструкции. Широкие эксперименты на реальных данных показывают, что SCAN достигает наилучших результатов.

arxiv arXiv cs.LG · 8 д назад

Концептуальная инновация в искусственном интеллекте медицинской визуализации

Новая позиция утверждает, что исследовательская деятельность в области искусственного интеллекта медицинской визуализации должна приоритизировать концептуальную инновацию — переформулировку задач, метрик оценки и клинической значимости — а не только улучшения алгоритмов. В статье отмечается, что текущие академические стимулы недооценивают вклад концептуальных разработок, что приводит к несоответствию целей и ограниченному реальному влиянию, и предлагаются рекомендации для исследователей, наставников и журналов, направленные на поддержку такой инновации.

arxiv arXiv cs.LG · 8 д назад

Большие языковые Гиббс для структурированной вероятностной инференции

Большие языковые Гиббс используют условные распределения ЛЛМ как операторы перехода для итеративного пересчета переменных. Метод позволяет достигать согласованной, порядковой независимой вероятностной инференции за счет достижения стационарного распределения, которое сбалансирует локальные условные распределения, предлагая практический альтернативный подход к однопроходной генерации для задач структурированного мышления.

arxiv arXiv cs.LG · 8 д назад

NeSyCat Torch: Реализация дифференцируемых тензоров для нейросимвольного обучения

NeSyCat Torch предоставляет дифференцируемую реализацию тензоров категориальных семантик для нейросимвольного обучения, объединяя классические, размытые, вероятностные и нейронные системы под единым определением индуктивной истины. Он превосходит LTN и DeepProbLog по скорости и точности на задаче сложения MNIST, достигая точности, равной DeepStochLog, при работе в единой системе, расширяемой на непрерывную вероятность через инстанцирование монады.

arxiv arXiv cs.LG · 8 д назад

Звук и свет предсказывают делириум в ИЦУ

Исследование показало, что интенсивность окружающего звука и света может независимо предсказывать делириум в ИЦУ. Характеристики звука были доминирующими предикторами, а комбинация звука и света улучшала оценку риска делириума на короткий срок, особенно в течение одной недели.

arxiv arXiv cs.LG · 8 д назад

Act2Answer оценивает сохранение знаний в моделях визуально-языковых-действий

Act2Answer вводит лёгкий протокол для оценки сохранения общеупотребимых и мировых знаний в моделях визуально-языковых-действий (VLA), требуя от агентов отвечать на вопросы через действия размещения объектов. Большой масштабный анализ 7 моделей VLA и 9 базовых моделей VLM показывает, что VLAs хорошо справляются с простыми концепциями, но демонстрируют большие разрывы в богатых семантических категориях по сравнению с их исходными моделями VLM, при этом обучение с помощью VQA улучшает сохранение знаний, а наиболее яркие сигналы, связанные с правильным ответом, наблюдаются в средних слоях VLA.

arxiv arXiv cs.LG · 8 д назад

Недостаточность синхронизации неопределенности MC Dropout для клинической безопасности в сегментации глиом

Исследование на 126 пациентах BraTS21 показывает, что хотя MC Dropout обеспечивает сильную синхронизацию неопределенности и ошибок, он не способен обнаруживать критические проблемы калибровки при улучшении зон опухоли. Модель UNet-Res демонстрирует почти нулевую энтропию и высокую ECE в этих клинически важных областях, при этом Dice-оценка составляет 0,714, что указывает на серьезную некалибровку, не видимую стандартными метриками, такими как Dice и AUROC. Эти результаты подчеркивают, что синхронизация неопределенности сама по себе недостаточна для клинической безопасности, и необходимо оценивать калибровку в отдельных областях вместе с традиционными метриками.

arxiv arXiv cs.LG · 8 д назад

Оптимизация климатических сценариев повышает обобщение эмулятора

Новый метод использует дифференцируемую простую климатическую модель для оптимизации сценариев обучения, что улучшает обобщение эмулятора. Обучение на одной оптимизированной сценарии превосходит шесть стандартных сценариев ScenarioMIP, и такие сценарии дают более точные эмуляторы при использовании с моделями средней сложности, несмотря на меньший размер набора данных.

arxiv arXiv cs.LG · 8 д назад

P-K-GCN: физически усиленный Koopman-усиленный графовый конволюционный сетей

P-K-GCN обеспечивает высокую точность пространственно-временной суперразрешающей обработки на нерегулярных геометриях за счет объединения графовых конволюционных сетей с теорией оператора Коупмана. В нем включена физически обусловленная потеря для обеспечения соблюдения физических законов, что снижает ошибку суперразрешающей обработки за счет улучшения обобщения и точности, как это было подтверждено в восстановлении электродинамики сердца.

arxiv arXiv cs.LG · 8 д назад

Diffusion-Proof: Первый фреймворк для диффузионных LLM в формальной доказательной математике

Diffusion-Proof — первый фреймворк для обучения и применения диффузионных языковых моделей в формальной доказательной математике. Он вводит dLLM-Prover-7B для написания полных доказательств с долгосрочной согласованностью и dLLM-Corrector-7- для локальной коррекции доказательств с использованием обратной информации. Фреймворк превосходит автокоррекционные базовые LLM на 1,61% на ProofNet-Test и на 6,14% на MiniF2F-Test, и решает задачу IMO за пределами возможностей DeepSeek-Prover-V2-7B.

arxiv arXiv cs.LG · 8 д назад

Разбор внимания трансформера с помощью исполняемых программ

Новый метод использует синтез программ для генерации программ на языке Python, которые воссоздают паттерны внимания в моделях трансформеров. Такие программы достигают среднего значения пересечения по объединению более 75% на отложенных данных и могут заменить до 25% голов внимания с минимальным влиянием на производительность модели, увеличивая перплексность в среднем на 16%.

arxiv arXiv cs.LG · 8 д назад

UBP2: Метод сбалансированного учета неопределенности для эффективного предпочтительного обучения с помощью релевантности

UBP2 представляет модельный метод, который активно исследует среды, объединяя рассуждение о неопределенностях в вознаграждении, динамике и функциях ценности. Он обеспечивает превосходную эффективность по образцу в предпочтительном обучении с помощью релевантности, превосходя как модельные, так и неоптимистичные модельные базовые методы на платформе Meta-World.

arxiv arXiv cs.AI · 8 д назад

Слияние основных подпространств для многозадачного обучения

Слияние основных подпространств (ESM) снижает перекрестное влияние между задачами, фокусируясь на основных направлениях сдвигов активации. ESM++ расширяет это с помощью динамического выбора экспертов через маршрутизацию на основе прототипов, позволяя осуществлять слияние многозадачных моделей без обучения с сохранением знаний по задачам.

arxiv arXiv cs.AI · 8 д назад

Пользователь как энгра: локальные параметрические редакции для личной памяти

Пользователь как энгра предлагает хранить факты по каждому пользователю в виде хирургических, хеш-ключевых редакций в таблице памяти, оставляя процесс мышления в общем адаптере. Такой подход обеспечивает на 5,6 раза более высокую точность косвенного мышления и сохраняет базовую производительность мышления, при этом объем памяти на 33 000 раз меньше, чем при использовании LoRA по каждому пользователю. Метод позволяет выполнять раздельные редакции пользователей, которые составляются без потерь, превосходя ретриевные потоки при более чем 100 фактах.

arxiv arXiv cs.AI · 8 д назад

Поток, ориентированный на клиницистов, для аннотации и оценки искусственного интеллекта в ультразвуковой диагностике

Новый поток позволяет клиницистам выполнять удаленную аннотацию и оценку моделей искусственного интеллекта в ультразвуковой диагностике без необходимости локального скачивания данных. Поток поддерживает участие нескольких оценщиков, агрегацию результатов и автоматический статистический анализ, что было проверено в исследовании по сегментации плодового ультразвука с участием шести оценщиков разного уровня компетентности. Результаты показывают средний до сильный уровень согласия и предпочтение поздних моделей активного обучения в оценках без привлечения специалистов.