Reasoning models — korshunov.ai

Reasoning models Страница 27 / 35

ReLAR: Регулирование скрытых состояний на основе репликации для стабильного рассуждения больших языковых моделей

ReLAR представляет рамку на основе репликации, которая последовательно улучшает скрытые состояния для повышения стабильности рассуждений больших языковых моделей. Она использует обученные контроллеры глубины и действий, тренированные с помощью градиентов политики, для адаптивного определения шагов уточнения, обеспечивая лучшую точность и качество генерации по сравнению с явными методами рассуждения при меньшей нагрузке на инференс.

arxiv arXiv cs.LG · 8 д назад

Домен-валидность-ограниченный метаморфный тест для суррогатов SciML

Критерий доменной валидности проверяет кандидаты метаморфных отношений, обеспечивая превышение допустимого порога и выполнение предусловий. Метод преобразует действительные отношения в исполняемые, оракульные тестовые ресурсы, проверенные на нескольких задачах по CFD и семействах дифференциальных уравнений, позволяя различать нарушения модели от применений за пределами домена.

arxiv arXiv cs.LG · 8 д назад

NMF с топологической регуляризацией для интерпретируемых базисов

Новая методика интегрирует персистентную гомологию в неотрицательное матричное разложение для регуляризации топологии базисных функций. Этот подход позволяет получать пространственно согласованные компоненты изображений, периодические временные ряды и кликовые граф-сигналы, используя пороговые свободные топологические оценки как регуляризаторы в цели NMF.

arxiv arXiv cs.LG · 8 д назад

Оценка траектории на основе предпочтений для агентных систем

Оффлайн-оценка агентных систем часто приводит к равным сравнениям в 75% случаев при использовании стандартных метрик на основе успеха. Оценка траектории на основе предпочтений снижает количество равных результатов до 35% за счёт сравнения профиля прогресса и профиля времени возврата, повышая дифференцирующую способность и эффективность использования данных. Эти результаты указывают на то, что насыщение бенчмарков может быть связано не только с данными или сложностью задачи, но и с выбором метода оценки.

arxiv arXiv cs.LG · 8 д назад

CARLOS: Глубокое обучение для непрерывного оптимального останова

CARLOS использует агрегированный глубокий нейронный слой для обучения совместной пространственно-временной границы останова для задач оптимального останова. Он последовательно уточняет решения останова на более тонких временных разрешениях и использует адаптивную выборку для фокусировки обучения вблизи границы останова. Результаты сравнительных испытаний показывают, что CARLOS превосходит существующие бермуданские решатели и приближается к американской верхней границе с высокой эффективностью.

arxiv arXiv cs.LG · 8 д назад

Обратное обучение Q: Новый алгоритм офф-полицейского обучения

Обратное обучение Q (RQL) — это новый алгоритм офф-полицейского обучения, который обучает политику потока с использованием предварительных данных. Моделируя шаги уточнения потока как действия в расширенном процессе марковской решений и применяя виртуальные офф-полицейские траектории через обратное преобразование, RQL обеспечивает эффективное обучение без обратного распространения во времени. Эксперименты по 50 роботизированным задачам показывают, что RQL достигает наилучшей средней производительности среди современных методов офф-полицейского обучения на основе потока.

arxiv arXiv cs.LG · 8 д назад

Кадровая система ST-CND для раннего предупреждения географических пороговых точек

Спектрально-временные каскадные сети диагностики (ST-CND) представляет данные-ориентированную систему для обнаружения географических пороговых точек путем моделирования пространственных полей как каскадных сетей, эволюционирующих во времени. Она превосходит существующие методы на стандартах морской поверхности температуры, достигая значения AUROC в 0,783 и критического подсетевого IoU в 0,378 для Североатлантического AMOC.

arxiv arXiv cs.LG · 8 д назад

Credit-in-Event: Восстановление кредитов событий в динамических моделях

Новая методика, называемая Credit-in-Event, идентифицирует и решает проблему временного размазывания кредитов в обученных динамических моделях. CREST, метка-безопасный и обучение-безопасный выход, восстанавливает объединённые представления, оценивая транзитные ядра событий и применяя контраст между событиями и остатком, что снижает ошибку вне распределения для различных систем и типов данных. Исследования по исключениям подтверждают, что улучшение обусловлено восстановлением кредитов ядра события, а не общими предпосылками локальности или стабильности.

arxiv arXiv cs.LG · 8 д назад

Функции LLM могут негативно влиять на GNN через интерференцию при конкатенации

Конкатенация признаков, сгенерированных LLM, к графовым нейронным сетям систематически снижает точность на тестах с гомофильными данными, при этом точность PubMed снижается на -17.0 +/- 0.3 pp. Измерение дискриминативности LLM в отдельности, Delta_sig, коррелирует с производительностью конкатенации (r^2 = 0.38), и правило на основе Delta_sig <= 13.8 pp корректно предсказывает отсутствие положительного влияния в 7 из 9 датасетов.

arxiv arXiv cs.LG · 8 д назад

SelFix: корневой выбор фиксированного точки инверсии для прямоугольных потоков через прямолинейность траектории

SelFix улучшает инверсию фиксированной точки за счёт выбора решений, которые создают более прямолинейные обратные траектории, что повышает качество реконструкции реальных изображений и редактирования с сохранением источника. Эксперименты на FLUX.1-dev и PIE-Bench показывают, что SelFix превосходит предыдущие базовые методы как по качеству реконструкции, так и по точности редактирования.

arxiv arXiv cs.LG · 8 д назад

SkillMigrator: Переносимые паттерны взаимодействия для эффективности веб-агента

SkillMigrator обучает переносимые веб-навыки, сопоставляя структуры разметки вместо ссылок на элементы. Он хранит каждый навык как переносимый паттерн взаимодействия с структурной схемой, что обеспечивает эффективную передачу навыков между сайтами. По сравнению с методами, достигающими передовых результатов, он снижает среднее количество действий LLM на 8-10% на WebArena и Mind2Web при равных показателях успеха.

arxiv arXiv cs.LG · 8 д назад

Кадровая декомпозиция рамки для предварительной настройки прогнозирования рисков

Новая рамка разделяет риски предварительной настройки прогнозирования на внутренние ограничения и вариацию оптимизации. Она доказывает необходимую нижнюю границу уменьшения вариации и вводит стратегию оптимального бюджета для исследования, подтвержденную на синтетических и реальных бенчмарках в трех различных режимах прогнозирования.

arxiv arXiv cs.LG · 8 д назад

Физически ограниченные нейронные сети улучшают прогнозирование погоды

Исследование улучшает физически ограниченные нейронные сети за счет введения усовершенствованного численного решателя, едиблого автокорреляционного блока и двух нейронных оснований. Эти улучшения снижают среднеквадратическую ошибку на 8-22% в краткосрочных прогнозах в южной части Тихого океана и лучше сохраняют физическую согласованность.

arxiv arXiv cs.LG · 8 д назад

TUNEAHEAD предсказывает производительность тонкой настройки до начала обучения

TUNEAHEAD — это легкий фреймворк, который предсказывает производительность тонкой настройки с использованием мета-векторов из описаний датасетов и коротких пробных запусков. Он превосходит базовые методы, такие как Early-Stop Extrapolation и ProxyLM, достигая RMSE в 1,47 процентных пунктах и 95,1% предсказаний в пределах ±3 процентных пунктов от истинных оценок на 370 отложенных запусках.

arxiv arXiv cs.LG · 8 д назад

Изучаемые графические куски для гетерогенности признаков

Мы предлагаем изучаемые графические куски как наименьшие семантические единицы в графовых данных для решения проблемы гетерогенности признаков без текстовой информации. Наша система использует кодировщики кусков и агрегаторы для извлечения и объединения знаний между областями, что позволяет проводить универсальную предобучку и улучшать производительность на этапе последующей обработки при использовании большего объема предобученных данных.

arxiv arXiv cs.LG · 8 д назад

EnvRL: Использование динамики среды в агентном RL

EnvRL представляет рамку, которая улучшает агентное обучение с помощью вознаграждения за интеграцию динамики среды через прогнозирование состояния и обратные динамические цели. При обучении с использованием GRPO, EnvRL повышает показатели успеха Qwen-2.5-1.5B-Instruct с 72,8% до 77,4% на ALFWorld и с 56,8% до 67,0% на WebShop.

arxiv arXiv cs.LG · 8 д назад

АСТЕРОИД: трансформатор для прогнозирования многошаговых симуляций молекулярной динамики

АСТЕРОИД — это данные-ориентированный фреймворк, который прогнозирует многошаговые координаты атомов в симуляциях молекулярной динамики без итеративного интегрирования. Он использует архитектуру трансформатора, ориентированную на пространственно-временные зависимости, для моделирования многоуровневых зависимостей, обеспечивая более высокую точность и меньшую вычислительную стоимость по сравнению с существующими методами на данных, полученных из квантовой механики.

arxiv arXiv cs.LG · 8 д назад

Справедливость в графовых нейронных сетях через адаптацию лапласиана

Новый подход модифицирует оператор лапласиана в графовой диффузии для повышения справедливости за счёт включения проекций на подпространства, спектральных корректировок и фильтрации по частотам. Метод использует сглаживающие свойства графовой диффузии для уменьшения предвзятости, и теоретический анализ вместе с эмпирической проверкой на синтетических и реальных данных показывают улучшение справедливости без значительного увеличения вычислительной нагрузки.

arxiv arXiv cs.LG · 8 д назад

Использование базы дельта для пересмотра целей улучшает прогнозирование нагрузки на электричество

Метод пересмотра целей на основе дельта улучшает прогнозирование нагрузки на электричество в краткосрочной перспективе, предсказывая изменения нагрузки, а не абсолютные значения. Результаты показывают снижение MAPE более чем на 50% для прогнозов на один час вперед при использовании моделей LSTM и Transformer, с существенными преимуществами для глубоких последовательных моделей в прогнозах на день вперед.

arxiv arXiv cs.LG · 8 д назад

Модели визуально-языковых систем не всегда нуждаются в изображениях для точности рентгеновских снимков грудной клетки

Каузальный аудит показывает, что многие визуально-языковые модели достигают высокой точности рентгеновских снимков грудной клетки без использования изображений. Текстовые модели достигают одинаковой производительности с мультимодальными моделями и превосходят их в области сопоставления, при этом показатели точности и уверенности появляются только при использовании изображений. Эти результаты указывают на то, что точность в отдельности недостаточна для подтверждения клинического внедрения, и необходимо оценивать сопоставление.