Reasoning models — korshunov.ai

Reasoning models Страница 11 / 35

Прямая оценка выгоды для частично наблюдаемых областей

Прямая оценка выгоды (DAE) расширяется на частично наблюдаемые области с минимальными изменениями. Дискретная модель скрытых динамик снижает вычислительную нагрузку за счёт эффективного приближения вероятностей переходов, что позволяет использовать масштабируемую и эффективную по образцам глубинную робастную обучение в пространствах высокой размерности наблюдений.

arxiv arXiv cs.LG · 7 д назад

DeepGaLA: нейронные заменители с неопределенностью для обратных задач в дифференциальных уравнениях

DeepGaLA — это нейронная сеть-заместитель, обеспечивающая прогнозы с учетом неопределенности для обратных задач в дифференциальных уравнениях. Он обеспечивает точность, сравнимую с гауссовыми процессами-заместителями, при сохранении эффективности в высокомерных пространствах параметров и учете дифференциальных уравнений.

arxiv arXiv cs.LG · 7 д назад

Механическое исследование сохранения представлений в непрерывном обучении

Синтетическая рамка показывает, что суперпозиция увеличивается со временем с кратковременными падениями на границах задач, что указывает на интерференцию, специфичную для границ. Более высокая спарсность признаков способствует суперпозиции без неизбежного забвения, при условии, что сила представлений сохраняется. Уровень эффективности ранга на уровне задач растет с ростом спарсности, что демонстрирует более широкое использование возможностей при спарсных условиях.

arxiv arXiv cs.LG · 7 д назад

HEPTv2: Эффективный конечный трансформатор для реконструкции заряженных частиц

HEPTv2 достигает эффективности отслеживания 98,6% с уровнем ложных срабатываний 0,8% на TrackML, используя только 15 мс времени инференса и 0,4 ГБ памяти на событие. Он превосходит предыдущие трансформаторные и графовые методы по эффективности и снижает задержку в 7 и 38–52 раза соответственно, что позволяет проводить реконструкцию частиц в реальном времени на HL-LHC.

arxiv arXiv cs.LG · 7 д назад

Двухэтапная эволюционная оптимизация гиперпараметров для PINNs

Двухэтапная эволюционная стратегия повышает производительность физически обусловленных нейронных сетей за счет предварительного отбора кандидатов гиперпараметров с помощью низкокачественной тренировки, а затем уточнения лучших кандидатов с помощью градиентной оптимизации. Метод значительно снижает среднюю ошибку при решении задач для уравнений адвекции, Клинга-Гордона и Гельмгольца при фиксированных вычислительных ресурсах.

arxiv arXiv cs.LG · 7 д назад

Топологический анализ данных для мониторинга процессов в реальном времени

Новый метод объединяет топологический анализ данных и машинное обучение для мониторинга высокомерных динамических процессов. Он представляет временные ряды как многообразия, использует топологические характеристики для описания структуры и применяет нейронные обыкновенные дифференциальные уравнения для моделирования динамического развития. Подход эффективно обнаруживает разнообразные события в промышленных данных процессов и превосходит альтернативы на основе реконструкции и на основе траекторий.

arxiv arXiv cs.LG · 7 д назад

SSH-Net: Глубокая сеть для прогнозирования времени отказа при конкурирующих рисках

SSH-Net — это структурированная глубокая нейронная сеть, предназначенная для прогнозирования функций распределения времени отказа при конкурирующих рисках. Она использует отдельные подсети для различных групп ковариат, повышая точность за счёт сопоставления структуры нейронной сети с иерархией данных. Модель проверяется с помощью симуляционных исследований и применяется к данным о сбоях GPU Titan.

arxiv arXiv cs.LG · 7 д назад

Агентный символический поиск для характеристики решений уравнений в частных производных

ASYS предлагает рамку с предварительным руководством, которая использует математическую теорию и эволюционный поиск для генерации интерпретируемых символических форм решений уравнений в частных производных. Оно создает аналитические представления для сложных задач, таких как динамика Альлена-Кэна и взрыв в модели Келлера-Сегеля, предлагая новые пути для математического анализа за пределами традиционных методов.

arxiv arXiv cs.LG · 7 д назад

Римановская острота объясняет предвзятость SGD к плоским минимумам

Этот исследовательский проект вводит римановскую остроту — инвариантную по перепараметризации меру плоскости, основанную на геометрии матрицы информационной функции Фишера. В нем доказывается, что стационарное распределение SGD сконцентрировано в римановых плоских минимумах, и связывается эта геометрическая предвзятость с обобщением через границу PAC-Bayes. Эксперименты на MNIST и CIFAR-10 показывают, что римановская острота лучше отражает обобщение, чем евклидова острота, с масштабированием, согласующимся с теорией.

arxiv arXiv cs.LG · 7 д назад

Датасет RefRad2D обеспечивает масштабируемую пространственную сопоставимость в рентгенологии

RefRad2D — это масштабный билингвальный датасет из 1,2 млн пар изображений КТ и МРТ и текстов из клинической практики. Обученный на этом данных, RadGrounder достигает конкурентоспособных результатов в задачах визуального вопроса-ответа и генерации отчётов, при этом сохраняет качество языка за счёт сопоставления пространственных элементов без снижения производительности.

arxiv arXiv cs.LG · 7 д назад

Как безопасные LLM интерпретируют смешанные демонстрации соблюдения

Исследование показывает, что добровольные и вредоносные демонстрации соблюдения не являются взаимозаменяемыми в языковых моделях. Добровольные демонстрации могут либо снизить, либо увеличить вредоносное соблюдение в зависимости от модели, при этом оптимизация предпочтений играет ключевую роль в предотвращении вредоносного соблюдения. Исследование также выявило смещение в порядке демонстраций и разнообразные поведения моделей при обработке отказов в процессе в-контекстного обучения.

arxiv arXiv cs.LG · 7 д назад

Метод probe-and-refine улучшает производительность код-агента

Новый метод, называемый probe-and-refine tuning, использует синтетические пробы исправления ошибок для итеративного улучшения файлов руководства репозитория с помощью одноразовых вызовов LLM, без циклов агентов или использования инструментов. На SWE-bench Verified он достигает среднего коэффициента разрешения 33,0% — на 14,5 процентных пункта выше начального статического базового знания — что свидетельствует о расширении охвата, а не точности исправлений. Метод позволяет агентам эффективно использовать большие бюджеты шагов, и производительность остается стабильной при различных моделях, при наличии достаточного диагностического вывода.

arxiv arXiv cs.LG · 7 д назад

Многоцелевая байесовская система обучения в контексте

Новая многоцелевая система обучения в контексте позволяет осуществлять амортизированную иерархическую байесовскую инференцию, представляя информацию о предыдущих данных в виде префикса в наборах данных. Трансформерная модель адаптирует прогнозы между семействами предыдущих данных, достигая производительности, соответствующей идеальной модели, на различных задачах, при этом значительно ускоряясь. Она была проверена на реальных спектрально-временных прогнозах температуры.

arxiv arXiv cs.LG · 7 д назад

Калибровка в моделях на основе смеси экспертов при смещении распределения

Эта статья исследует, как модели на основе смеси экспертов сохраняют калибровку при смещении распределения. Авторы показывают, что калибровка на уровне экспертов обеспечивает общую калибровку в жестко-пропускаемых моделях, но недостаточна для мягко-пропускаемых моделей. Авторы предлагают противоречивую пересылку для штрафования ошибок калибровки в агрегатах маршрутизации, улучшая баланс между точностью и калибровкой при различных задачах и смещениях.

arxiv arXiv cs.LG · 7 д назад

Ли-алгебраическое внимание: токены элементов группы в нейронных сетях

Ли-алгебраическое внимание вводит токены как элементы матричных групп Ли, используя замкнутую алгебраическую норму относительных положений как оценки внимания. Метод достигает инвариантного и эквивариантного внимания без компонент теории представлений, превосходя векторные базовые модели на SE(2), SO(3) и Aff(2) с меньшим количеством параметров и без обучаемых ядер.

arxiv arXiv cs.LG · 7 д назад

UNIEGO: Прокси-среди единая эгоцентрическая видеопредставление

UNIEGO вводит иерархическую многоклассовую систему дистилляции, использующую прокси-модели для медиации передачи знаний из девяти различных учителей по точкам зрения и модальностям. Этап селективной дистилляции прокси (SPD) адаптивно выбирает надежные прокси во время обучения, улучшая качество и стабильность представлений. UNIEGO достигает лучших результатов в распознавании действий, поиске видео и сегментации действий на базовых данных эго-экзо.

arxiv arXiv cs.LG · 7 д назад

На сколько прозрачна DiffusionGemma?

DiffusionGemma имеет плохую прозрачность переменных из-за высокой степени прозрачности последовательности, но это может быть уменьшено за счёт интерпретируемого барьера токенов, снижая глубину последовательности до 1,1 раза глубины Gemma 4. Прозрачность алгоритмов в моделях диффузии является более сложной из-за динамических изменений токенов, хотя исследования случаев выявили новые явления, такие как нехронологическое мышление и мышление в промежуточном контексте. DiffusionGemma оказалась подобной по мониторируемости Gemma 4.

arxiv arXiv cs.CL · 7 д назад

Датасет RefRad2D обеспечивает масштабируемую пространственную анатомическую опору в рентгенологии

RefRad2D — это масштабный билингвальный датасет из 1,2 млн пар изображений КТ и МРТ и текстов из клинической практики. Обученный на этом данных, RadGrounder достигает конкурентоспособных результатов в задаче визуального вопроса-ответа и обеспечивает пространственную опору без ухудшения качества языковой обработки, что позволяет получать проверяемые выводы в рентгенологии.

arxiv arXiv cs.CL · 7 д назад

H-RePlan: иерархическое восстановление для систем агентов на разных устройствах

H-RePlan вводит иерархическую систему перепланирования, которая разделяет восстановление стратегии на уровне устройства и перепланирование на глобальном уровне. Оно превосходит существующие базовые варианты, достигая более высокого уровня завершения и соблюдения инструкций, при снижении затрат на токены, за счёт восстановления с учётом области в системах агентов на нескольких устройствах.

arxiv arXiv cs.CL · 7 д назад

StylisticBias: Визуальные подсказки определяют большинство социальных предвзятостей в МЛЛМ

StylisticBias представляет контролируемую метрику для оценки социальных предвзятостей на уровне атрибутов в мультимодальных больших языковых моделях. Исследование показывает, что возраст и тип тела доминируют в эффектах на уровне идентичности, в то время как стиль моды и 15 ключевых визуальных атрибутов определяют большинство предвзятостей, что объясняет почти 80% вариации. Метрика подчеркивает, что суждения моделей наиболее чувствительны к визуальным подсказкам, особенно в контекстах, связанных с экономическим положением и стилем.