Reasoning models
arxiv arXiv cs.CL · 8 д назад

RubricsTree: масштабируемая система оценки для персональных агентов здоровья

RubricsTree вводит иерархическую классификацию более 100 клинически подтвержденных булевых рубрик, эволюционировавших из 4000 реальных запросов пользователей при помощи ручной коррекции. Оно обеспечивает масштабируемую оценку персональных агентов здоровья, согласованную с экспертами, путем динамического направления запросов в соответствующие рубрики и превосходит базовые методы по согласованности, чувствительности к контексту и достигает роста производительности моделей до 66% на HealthBench.

arxiv arXiv cs.CL · 8 д назад

Модели циклического мира достигают эффективности в 100 раз

Модели циклического мира (LoopWM) вводят архитектуру на основе циклов, которая последовательно уточняет скрытые состояния среды с использованием трансформатора с общей параметризацией. Этот подход обеспечивает эффективность в 100 раз по сравнению с традиционными моделями мира за счёт адаптации глубины вычислений к каждому шагу предсказания, предлагая новую размерность масштабирования для моделирования мира.

arxiv arXiv cs.CL · 8 д назад

ZPPO: Учитель в промптах, а не в градиентах

Зона проксимальной оптимизации политики (ZPPO) интегрирует знания учителя прямо в промпты, а не в градиенты политики. Используя двоичные и отрицательные кандидаты с включёнными вопросами, ZPPO выявляет недостатки учащихся и усиливает обучение через буфер повторного использования промптов, достигая превосходных результатов на сложных вопросах на различных масштабах учащихся, особенно при использовании малых моделей.

arxiv arXiv cs.CL · 8 д назад

Darshana Graph: Корпус для сравнительной индийской философии

Darshana Graph представляет корпус из более чем 125 000 текстовых записей, взятых из индийских философских источников, включая хиндуистские, буддийские и яинские. В нем содержится уникальный подмножество из 8 500 сопоставленных записей из 18 комментаторов из пяти школ, что позволяет проводить сравнительный анализ комментаторов. Корпус поддерживает стилиметрический анализ и пайплайн крупной языковой модели, извлекающей отношения философических концепций, выявляя паттерны споров и ограничения извлечения.

arxiv arXiv cs.LG · 8 д назад

ReLAR: Регулирование скрытых состояний на основе репликации для стабильного рассуждения больших языковых моделей

ReLAR представляет рамку на основе репликации, которая последовательно улучшает скрытые состояния для повышения стабильности рассуждений больших языковых моделей. Она использует обученные контроллеры глубины и действий, тренированные с помощью градиентов политики, для адаптивного определения шагов уточнения, обеспечивая лучшую точность и качество генерации по сравнению с явными методами рассуждения при меньшей нагрузке на инференс.

arxiv arXiv cs.LG · 8 д назад

Домен-валидность-ограниченный метаморфный тест для суррогатов SciML

Критерий доменной валидности проверяет кандидаты метаморфных отношений, обеспечивая превышение допустимого порога и выполнение предусловий. Метод преобразует действительные отношения в исполняемые, оракульные тестовые ресурсы, проверенные на нескольких задачах по CFD и семействах дифференциальных уравнений, позволяя различать нарушения модели от применений за пределами домена.

arxiv arXiv cs.LG · 8 д назад

NMF с топологической регуляризацией для интерпретируемых базисов

Новая методика интегрирует персистентную гомологию в неотрицательное матричное разложение для регуляризации топологии базисных функций. Этот подход позволяет получать пространственно согласованные компоненты изображений, периодические временные ряды и кликовые граф-сигналы, используя пороговые свободные топологические оценки как регуляризаторы в цели NMF.

arxiv arXiv cs.LG · 8 д назад

Оценка траектории на основе предпочтений для агентных систем

Оффлайн-оценка агентных систем часто приводит к равным сравнениям в 75% случаев при использовании стандартных метрик на основе успеха. Оценка траектории на основе предпочтений снижает количество равных результатов до 35% за счёт сравнения профиля прогресса и профиля времени возврата, повышая дифференцирующую способность и эффективность использования данных. Эти результаты указывают на то, что насыщение бенчмарков может быть связано не только с данными или сложностью задачи, но и с выбором метода оценки.

arxiv arXiv cs.LG · 8 д назад

CARLOS: Глубокое обучение для непрерывного оптимального останова

CARLOS использует агрегированный глубокий нейронный слой для обучения совместной пространственно-временной границы останова для задач оптимального останова. Он последовательно уточняет решения останова на более тонких временных разрешениях и использует адаптивную выборку для фокусировки обучения вблизи границы останова. Результаты сравнительных испытаний показывают, что CARLOS превосходит существующие бермуданские решатели и приближается к американской верхней границе с высокой эффективностью.

arxiv arXiv cs.LG · 8 д назад

Обратное обучение Q: Новый алгоритм офф-полицейского обучения

Обратное обучение Q (RQL) — это новый алгоритм офф-полицейского обучения, который обучает политику потока с использованием предварительных данных. Моделируя шаги уточнения потока как действия в расширенном процессе марковской решений и применяя виртуальные офф-полицейские траектории через обратное преобразование, RQL обеспечивает эффективное обучение без обратного распространения во времени. Эксперименты по 50 роботизированным задачам показывают, что RQL достигает наилучшей средней производительности среди современных методов офф-полицейского обучения на основе потока.

arxiv arXiv cs.LG · 8 д назад

Кадровая система ST-CND для раннего предупреждения географических пороговых точек

Спектрально-временные каскадные сети диагностики (ST-CND) представляет данные-ориентированную систему для обнаружения географических пороговых точек путем моделирования пространственных полей как каскадных сетей, эволюционирующих во времени. Она превосходит существующие методы на стандартах морской поверхности температуры, достигая значения AUROC в 0,783 и критического подсетевого IoU в 0,378 для Североатлантического AMOC.

arxiv arXiv cs.LG · 8 д назад

Credit-in-Event: Восстановление кредитов событий в динамических моделях

Новая методика, называемая Credit-in-Event, идентифицирует и решает проблему временного размазывания кредитов в обученных динамических моделях. CREST, метка-безопасный и обучение-безопасный выход, восстанавливает объединённые представления, оценивая транзитные ядра событий и применяя контраст между событиями и остатком, что снижает ошибку вне распределения для различных систем и типов данных. Исследования по исключениям подтверждают, что улучшение обусловлено восстановлением кредитов ядра события, а не общими предпосылками локальности или стабильности.

arxiv arXiv cs.LG · 8 д назад

Функции LLM могут негативно влиять на GNN через интерференцию при конкатенации

Конкатенация признаков, сгенерированных LLM, к графовым нейронным сетям систематически снижает точность на тестах с гомофильными данными, при этом точность PubMed снижается на -17.0 +/- 0.3 pp. Измерение дискриминативности LLM в отдельности, Delta_sig, коррелирует с производительностью конкатенации (r^2 = 0.38), и правило на основе Delta_sig <= 13.8 pp корректно предсказывает отсутствие положительного влияния в 7 из 9 датасетов.

arxiv arXiv cs.LG · 8 д назад

SelFix: корневой выбор фиксированного точки инверсии для прямоугольных потоков через прямолинейность траектории

SelFix улучшает инверсию фиксированной точки за счёт выбора решений, которые создают более прямолинейные обратные траектории, что повышает качество реконструкции реальных изображений и редактирования с сохранением источника. Эксперименты на FLUX.1-dev и PIE-Bench показывают, что SelFix превосходит предыдущие базовые методы как по качеству реконструкции, так и по точности редактирования.

arxiv arXiv cs.LG · 8 д назад

SkillMigrator: Переносимые паттерны взаимодействия для эффективности веб-агента

SkillMigrator обучает переносимые веб-навыки, сопоставляя структуры разметки вместо ссылок на элементы. Он хранит каждый навык как переносимый паттерн взаимодействия с структурной схемой, что обеспечивает эффективную передачу навыков между сайтами. По сравнению с методами, достигающими передовых результатов, он снижает среднее количество действий LLM на 8-10% на WebArena и Mind2Web при равных показателях успеха.

arxiv arXiv cs.LG · 8 д назад

Кадровая декомпозиция рамки для предварительной настройки прогнозирования рисков

Новая рамка разделяет риски предварительной настройки прогнозирования на внутренние ограничения и вариацию оптимизации. Она доказывает необходимую нижнюю границу уменьшения вариации и вводит стратегию оптимального бюджета для исследования, подтвержденную на синтетических и реальных бенчмарках в трех различных режимах прогнозирования.

arxiv arXiv cs.LG · 8 д назад

Физически ограниченные нейронные сети улучшают прогнозирование погоды

Исследование улучшает физически ограниченные нейронные сети за счет введения усовершенствованного численного решателя, едиблого автокорреляционного блока и двух нейронных оснований. Эти улучшения снижают среднеквадратическую ошибку на 8-22% в краткосрочных прогнозах в южной части Тихого океана и лучше сохраняют физическую согласованность.

arxiv arXiv cs.LG · 8 д назад

TUNEAHEAD предсказывает производительность тонкой настройки до начала обучения

TUNEAHEAD — это легкий фреймворк, который предсказывает производительность тонкой настройки с использованием мета-векторов из описаний датасетов и коротких пробных запусков. Он превосходит базовые методы, такие как Early-Stop Extrapolation и ProxyLM, достигая RMSE в 1,47 процентных пунктах и 95,1% предсказаний в пределах ±3 процентных пунктов от истинных оценок на 370 отложенных запусках.

arxiv arXiv cs.LG · 8 д назад

Изучаемые графические куски для гетерогенности признаков

Мы предлагаем изучаемые графические куски как наименьшие семантические единицы в графовых данных для решения проблемы гетерогенности признаков без текстовой информации. Наша система использует кодировщики кусков и агрегаторы для извлечения и объединения знаний между областями, что позволяет проводить универсальную предобучку и улучшать производительность на этапе последующей обработки при использовании большего объема предобученных данных.

arxiv arXiv cs.LG · 8 д назад

EnvRL: Использование динамики среды в агентном RL

EnvRL представляет рамку, которая улучшает агентное обучение с помощью вознаграждения за интеграцию динамики среды через прогнозирование состояния и обратные динамические цели. При обучении с использованием GRPO, EnvRL повышает показатели успеха Qwen-2.5-1.5B-Instruct с 72,8% до 77,4% на ALFWorld и с 56,8% до 67,0% на WebShop.