Reasoning models — korshunov.ai

Reasoning models Страница 21 / 35

DIPHINE: Нейронный оценщик для $Φ$-ID в непрерывных системах

DIPHINE — первый нейронный оценщик, использующий модели диффузии на основе оценки для одновременной оценки всех взаимных информационных терминов, необходимых для интегрированного информационного разложения ($Φ$ID), из одного амортизированного сети. Он восстанавливает шестнадцать не пересекающихся информационных атомов с помощью инверсии Мёбиуса и предоставляет теоретический анализ, показывающий, что оценка синергии на синергию является самой сложной, с точными результатами на синтетических тестах и реальных биологических данных.

arxiv arXiv cs.LG · 8 д назад

В фокусе: использование GPU Spot для ускорения постобучивания DiT RL

Spotlight позволяет ускорить постобучивание DiT RL за счёт использования пустых GPU Spot, снижая расходы в 1,4–6,4 раза при достижении превосходного качества изображений. Используя устаревшие веса модели при исследовании и динамически переконфигурируя последовательную параллельность, обеспечивается эффективное использование GPU без нарушения обучающих потоков.

arxiv arXiv cs.LG · 8 д назад

ЛСТМ-Видение Трансформер улучшает предсказание ошибок прогноза HRRR

Гибридная архитектура LSTM-Видение Трансформер улучшает предсказание ошибок прогноза HRRR за счет интеграции профилей атмосферы из профилей мезонета. Она обеспечивает улучшение предсказания ошибок осадков до вдвое, особенно в периоды активной планетарной подстилки, за счет лучшего учета эволюции ошибок конвекции и снижения деградации, связанной с планетарной подстилкой.

arxiv arXiv cs.LG · 8 д назад

Типы вознаграждений в RL повышают устойчивость в кибер-физических системах

Исследование оценивает контроллеры без модели машинного обучения в нелинейных системах при кибератаках. Вознаграждение Ляпунова обеспечивает наилучшую устойчивость с низкой ошибкой отслеживания, в то время как метод Proximal Policy Optimization превосходит Deep Deterministic Policy Gradient по снижению вариации ключевых показателей эффективности.

arxiv arXiv cs.LG · 8 д назад

Структура-первые архитектуры для динамического обучения

Новый парадигм для обучения динамических систем акцентирует внимание на структурном проектировании, а не на нелинейной выразительности. Предложенные волновые динамические единицы используют явные и причинно-следственные взаимодействия для формирования многослойных архитектур, которые демонстрируют иерархическое поведение и информативные внутренние представления, даже при минимальной оптимизации параметров.

arxiv arXiv cs.LG · 8 д назад

Плавность-ориентированная дереандомизация границ PAC-Bayes

Новый подход дереандомизирует границы PAC-Bayes для гладких функций потерь путем анализа разности обобщения класса разности Дженсена с помощью сложности Радемахера. Полученные границы для детерминированных предикторов включают меры плоскости, полученные из джакобианов и гессианов отображения вероятности, и применяются к линейным моделям и гладким нейронным сетям. Предлагается практический регулятор, вычисляемый с использованием складывающих весов BatchNorm, и проверяется на CIFAR-10 при различных размерах батчей.

arxiv arXiv cs.LG · 8 д назад

JourneyFormer: Моделирование последовательностей для путешествий гостей Airbnb

JourneyFormer — это решение по моделированию последовательностей, внедренное в Airbnb для улучшения ранжирования поиска. Оно решает производственные проблемы, такие как длинные и исследовательские последовательности гостей и редкие метки бронирования, за счёт специальных решений в выборе данных, векторных представлений и присвоении меток. Модель продемонстрировала улучшение метрик в оффлайне и значительные бизнес-выгоды в онлайн-экспериментах A/B на нескольких производственных поверхностях.

arxiv arXiv cs.LG · 8 д назад

ViGOS: Разделение восприятия и рассуждения в многомодальных на-политических самодистилляциях

ViGOS представляет визуально обоснованную на-политическую самодистилляционную рамку для многомодальных больших языковых моделей. Она разделяет восприятие и рассуждение, используя визуальный учитель для визуальных описаний и учитель для конечных выводов, что снижает зависимость от текстовых ссылок. Этот подход улучшает визуально обоснованную производительность на нескольких бенчмарках визуально-языковых моделей.

arxiv arXiv cs.LG · 8 д назад

INDEQS: Граф-ориентированные нейронные уравнения дифференциальных уравнений

INDEQS представляет рамку графовых нейронных уравнений дифференциальных уравнений, в которой в архитектурном уровне интегрируется предварительное направленное графовое знание. Оно разделяет внутреннюю и внешнюю смешиваемость, предлагая как варианты с графовым ограничением, так и адаптивные по данным, при внешнем информировании снижается средняя абсолютная ошибка на больших графах, а внутреннее информирование обеспечивает эффективность параметров при соблюдении известной структуры смежности. Непрерывные декодеры превосходят дискретные на задачах прогнозирования трафика и гидрологических процессов в реальных условиях.

arxiv arXiv cs.LG · 8 д назад

ChronoSurv: Фреймворк графа для анализа выживаемости в многомодальных данных

ChronoSurv представляет иерархическую направленную графовую структуру, моделирующую медицинское обслуживание как прогресс-ориентированную клиническую траекторию. Оно достигает наилучших результатов в предсказании выживаемости на основе многомодальных данных, за счёт моделирования структурированных клинических рабочих процессов и обработки пропущенных данных с помощью гетерогенного передачи сообщений.

arxiv arXiv cs.LG · 8 д назад

OrthoReg: ортогональная регуляризация для гибридных символических-нейронных динамических систем

OrthoReg вводит ортогональную регуляризацию для предотвращения того, что нейронные компоненты переподучивают символические структуры в гибридных динамических системах. Снижая прямое взаимодействие между символическими и нейронными частями, оно обеспечивает дополнительное разложение, при котором символические модели отвечают за выражимую физику, а нейронные модели — за оставшиеся динамики. На тестах с частичным несовпадением библиотеки OrthoReg улучшает восстановление символических структур и производительность за пределами распределения.

arxiv arXiv cs.CL · 8 д назад

Честное обнаружение когнитивных нарушений через отучивание

Мультимодальный подход объединяет данные речи, текста и изображений с отучением на основе градиентного обратного преобразования для снижения демографической предвзятости при обнаружении легких когнитивных нарушений. Метод превосходит существующие мультимодальные и мультиязычные базовые модели на TAUKADIAL и PREPARE, демонстрируя сокращение разрыва в производительности между подгруппами по полу и языку, а также улучшенную переносимость между датасетами.

arxiv arXiv cs.CL · 8 д назад

Речь-обусловленная конечная система распознавания языков для китайских диалектов

Исследование оценивает речь-обусловленные MFCC-признаки и модель HMM-DNN с механизмами внимания для распознавания китайских диалектов. Подход объединяет векторы слов на уровне слов и MFCC-признаки с помощью CNN, обеспечивая превосходную производительность на стандартизированных корпусах диалектов по сравнению с существующими методами.

arxiv arXiv cs.CL · 8 д назад

Расстояние-адаптивное представление для внимания

Новое внимание, расстояние-адаптивное представление (DAR), присваивает более богатые представления близким токенам и уменьшает размерность для удалённых. Этот подход обеспечивает полную размерность на всех масштабах моделей и при мелкой настройке, превосходя однородное уменьшение размерности.

arxiv arXiv cs.CL · 8 д назад

CDDTLDA: Перенос обучения для дискриминации китайских диалектов

Новую архитектуру под названием CDDTLDA было предложено использовать перенос обучения и усреднение данных для решения задачи дискриминации китайских диалектов при ограниченной аннотации. Модель ASR источника обучается на крупном корпусе диалектов, к ним применяются усреднение скорости, тона и шума для диалектов с низким уровнем ресурсов, а затем модель ASR цели тонко настраивается с использованием самовнимания для выявления общих семантических признаков. Экспериментальные результаты показывают, что CDDTLDA превосходит самые передовые методы на двух проверочных корпусах китайских диалектов.

arxiv arXiv cs.CL · 8 д назад

Регулируемая оптимизация культурных предпочтений в моделях вознаграждения

Эта статья представляет SCPO — новую алгоритм для обучения моделей вознаграждения, которая сбалансирует разнообразные культурные предпочтения в подсообществах. SCPO повышает производительность моделей вознаграждения меньшинств на 7 пунктов на двух наборах данных и семи странах, при этом обеспечивая эффективность обучения на 280% выше, чем при полном тонком настройке на весь набор данных. Анализ показывает, что снижение смещения достигается за счёт оценки предпочтений подсообществ в целевых направлениях.

arxiv arXiv cs.CL · 8 д назад

PhysAssistBench оценивает LLMs в взаимодействии доктор-пациент-ЭХР

PhysAssistBench представляет бенчмарк для интерактивной помощи доктору-пациенту-ЭХР с использованием реальных случаев MIMIC-IV. В нём содержатся 1296 ручно проверенных и подтверждённых врачами диалогов, и показано, что текущие LLMs испытывают трудности при координации клинических знаний, коммуникации и взаимодействия с системой ЭХР.

arxiv arXiv cs.CL · 8 д назад

BCL: Байесовское обучение в контексте для извлечения информации

BCL — первый фреймворк, который использует фильтрацию частиц и байесовские обновления для систематического уточнения представлений меток в извлечении информации. Он обеспечивает стабильную производительность на разных масштабах моделей и обобщается на оба типа задач: последовательное маркирование и классификацию отношений, через четыре ключевых шага: инициализацию, наблюдение, обновление весов и пересамплирование.

arxiv arXiv cs.CL · 8 д назад

PragReST: Саморазвивающаяся косвенная логика для понимания прямого языка

PragReST — это самосупервизированная система, которая улучшает прямое мышление больших языковых моделей за счёт генерации следов косвенного мышления и обучения через надзорную тонкую настройку и обучение с помощью вознаграждения. Она превосходит базовые модели на четырёх прямых тестах, улучшая точность Qwen3-8B и Qwen3-14B на 5,37% и 5-5,50% соответственно, и сохраняет сильную производительность на задачах общего знания и математического мышления.

arxiv arXiv cs.CL · 8 д назад

PEC-Home: Симулированный датасет для интерпретации эллиптических команд

PEC-Home — первый симулированный датасет, предназначенный для того, чтобы позволить умным домашним помощникам интерпретировать постепенно эллиптические команды. Эксперименты показывают, что даже при использовании инструментов с историей диалога, LLMs, такие как GPT-4o, не могут достичь точного выполнения команд на эллиптических входах, что подчёркивает существенную разницу в текущих возможностях помощников.