Reasoning models — korshunov.ai

Reasoning models Страница 1 / 35

RubricsTree: масштабируемая система оценки для персональных агентов здоровья

RubricsTree вводит иерархическую классификацию более 100 клинически подтвержденных булевых рубрик, эволюционировавших из 4000 реальных запросов пользователей при помощи ручной коррекции. Оно обеспечивает масштабируемую оценку персональных агентов здоровья, согласованную с экспертами, путем динамического направления запросов в соответствующие рубрики и превосходит базовые методы по согласованности, чувствительности к контексту и достигает роста производительности моделей до 66% на HealthBench.

arxiv arXiv cs.CL · 8 д назад

Модели циклического мира достигают эффективности в 100 раз

Модели циклического мира (LoopWM) вводят архитектуру на основе циклов, которая последовательно уточняет скрытые состояния среды с использованием трансформатора с общей параметризацией. Этот подход обеспечивает эффективность в 100 раз по сравнению с традиционными моделями мира за счёт адаптации глубины вычислений к каждому шагу предсказания, предлагая новую размерность масштабирования для моделирования мира.

arxiv arXiv cs.CL · 8 д назад

ZPPO: Учитель в промптах, а не в градиентах

Зона проксимальной оптимизации политики (ZPPO) интегрирует знания учителя прямо в промпты, а не в градиенты политики. Используя двоичные и отрицательные кандидаты с включёнными вопросами, ZPPO выявляет недостатки учащихся и усиливает обучение через буфер повторного использования промптов, достигая превосходных результатов на сложных вопросах на различных масштабах учащихся, особенно при использовании малых моделей.

arxiv arXiv cs.CL · 8 д назад

Darshana Graph: Корпус для сравнительной индийской философии

Darshana Graph представляет корпус из более чем 125 000 текстовых записей, взятых из индийских философских источников, включая хиндуистские, буддийские и яинские. В нем содержится уникальный подмножество из 8 500 сопоставленных записей из 18 комментаторов из пяти школ, что позволяет проводить сравнительный анализ комментаторов. Корпус поддерживает стилиметрический анализ и пайплайн крупной языковой модели, извлекающей отношения философических концепций, выявляя паттерны споров и ограничения извлечения.

RubricsTree: масштабируемая система оценки для персональных агентов здоровья

Модели циклического мира достигают эффективности в 100 раз

ZPPO: Учитель в промптах, а не в градиентах

Darshana Graph: Корпус для сравнительной индийской философии

ReLAR: Регулирование скрытых состояний на основе репликации для стабильного рассуждения больших языковых моделей

Домен-валидность-ограниченный метаморфный тест для суррогатов SciML

NMF с топологической регуляризацией для интерпретируемых базисов

Оценка траектории на основе предпочтений для агентных систем

CARLOS: Глубокое обучение для непрерывного оптимального останова

Обратное обучение Q: Новый алгоритм офф-полицейского обучения

Кадровая система ST-CND для раннего предупреждения географических пороговых точек

Credit-in-Event: Восстановление кредитов событий в динамических моделях

Функции LLM могут негативно влиять на GNN через интерференцию при конкатенации

SelFix: корневой выбор фиксированного точки инверсии для прямоугольных потоков через прямолинейность траектории

SkillMigrator: Переносимые паттерны взаимодействия для эффективности веб-агента

Кадровая декомпозиция рамки для предварительной настройки прогнозирования рисков

Физически ограниченные нейронные сети улучшают прогнозирование погоды

TUNEAHEAD предсказывает производительность тонкой настройки до начала обучения

Изучаемые графические куски для гетерогенности признаков

EnvRL: Использование динамики среды в агентном RL