Тема · Reasoning models
arxiv arXiv cs.CL · 7 д назад

Данные рецептура повышает долгосрочное мышление в больших языковых моделях

Центрированный на данных подход улучшает долгосрочное мышление в больших языковых моделях, используя восемь отобранных наборов данных с 14 тысячами примерами в задачах поиска, синтеза многоуровневых доказательств и мышления. При сочетании с минимальным обучением на основе результатов GRPO достигается средний рост на 7,2 до 6,4 баллов на семи бенчмарках, превосходя предыдущие наборы обучения по релевантности, и улучшает агентную производительность на 4,8 и 7,0 баллов соответственно на GAIA и BrowseComp.

arxiv arXiv cs.CL · 7 д назад

REVES: Усиленное обучение для масштабирования на этапе тестирования

REVES представляет двухэтапную итерационную структуру, которая улучшает логическое мышление больших языковых моделей за счёт последовательного редактирования и проверки. Метод достигает +6,5 баллов по сравнению с базовыми RL и +4,0 балла по сравнению с стандартным многократным обучением на LiveCodeBench, используя базовую модель размером 4B и меньшее количество итераций по сравнению с более крупными системами. Метод улучшает исправление ошибок и обобщается на задачи вне распределения, такие как n_queens и mini_sudoku.

arxiv arXiv cs.CL · 7 д назад

Разделение поиска от рассуждений в агентах на основе языковых моделей

Разделенный поисковый фундамент (DSG) отделяет функциональность поиска от моделей рассуждений, обеспечивая вендор-независимый, настраиваемый и повторно используемый поисковый фундамент. DSG достигает почти естественной точности на SimpleQA с 91% меньшими затратами на поиск и 99,4% частотой попадания в тёплую кэш-память, одновременно снижая задержку на 68% и сохраняя краткие контракты выходных данных.

arxiv arXiv cs.CL · 7 д назад

GraphPO: графовая оптимизация политики для моделей рассуждения

GraphPO вводит направленную ациклическую графовую структуру для представления рассуждений, объединяя семантически эквивалентные пути для снижения избыточного исследования. Оно присваивает эффективность и корректность к рёбрам, улучшая эффективность инференса и надзор за процессом, одновременно снижая дисперсию оценки преимуществ. Эксперименты показывают, что GraphPO превосходит методы на основе цепей и деревьев на трёх моделях языковых моделей по задачам рассуждения и агентского поиска при одинаковых объёмах токенов или ответов.

arxiv arXiv cs.AI · 7 д назад

ProfiLLM: профилирование пользователей с ориентацией на полезность для распределения заказов в промышленных сервисах такси

ProfiLLM представляет агентную систему обработки больших моделей, которая извлекает поведенческие сигналы из журналов таксопарков для формирования профилей пользователей. Она обеспечивает увеличение относительного AUC до +6,14% и рост GMV до +4,35% в симуляциях распределения заказов, при этом в реальных онлайн-экспериментах A/B наблюдается стабильное улучшение на +0,47% GMV, +0,33% показателя выполнения заказа и снижение показателя отмены заказа до +0,82%.

arxiv arXiv cs.AI · 7 д назад

Самоусловленное присвоение кредитов для RL с подтверждаемыми вознаграждениями

SC-GRPO использует разность КЛ на уровне токена из самоусловленных траекторий для взвешивания градиентов в обучении с участием вознаграждений. Он превосходит GRPO на 8,1% и DAPO на 5,9% при выполнении задач по математике, программированию и агентским задачам, демонстрируя превосходную производительность при работе с распределениями, отличающимися от обучающих, и лучшие результаты по сравнению с OPD.

arxiv arXiv cs.AI · 7 д назад

Данные рецепт улучшает долгосрочное мышление в больших языковых моделях

Центрированный на данных подход улучшает долгосрочное мышление в больших языковых моделях, используя восемь отобранных наборов данных с 14 тысячами примерами в задачах поиска, синтеза многочисленных доказательств и мышления. При сочетании с минимальным обучением на основе результатов GRPO, он достигает средних приростов на 7,2 до 6,4 баллов на семи бенчмарках, превосходя предыдущие наборы для обучения по методу RL, и улучшает агентную производительность на 4,8 и 7,0 баллов соответственно на GAIA и BrowseComp.

arxiv arXiv cs.AI · 7 д назад

Skill-MAS: Эволюционная метаскилл для автоматических систем многоагентов

Skill-MAS вводит новый подход, который разделяет сохранение опыта от параметрических обновлений, моделируя оркестрацию как эволюционную метаскилл. Он использует замкнутый процесс, включающий многотраекторные развертывания и селективное отражение, для выделения повторно используемых принципов стратегии, обеспечивая значительные улучшения производительности и устойчивую переносимость между задачами и ЛЛМ.

arxiv arXiv cs.AI · 7 д назад

WorldLines: Оценка памяти агентов с долгосрочными горизонтами в условиях пребывания

WorldLines представляет проектную метрику для долгосрочных горизонтов пребывания в домашних условиях, захватывающую расширенные следы домашней среды с диалогами, действиями и изменениями состояния. Оно обеспечивает образцы, связанные с доказательствами, для задачи оценки памяти и планирования задач в условиях пребывания, и предлагает ObsMem — рамку памяти, основанную на наблюдении, поддерживающую память, учитывающую видимость, и решения, учитывающие состояние. Эксперименты подчеркивают трудности, связанные с частичной наблюдаемостью и переводом памяти, при этом ObsMem предлагает более сильную архитектуру для таких условий.

arxiv arXiv cs.AI · 7 д назад

Навык-ориентированная дистилляция для агентов интерфейса

SGCD вводит итеративную структуру для улучшения агентов интерфейса, решая пробелы в контроле в отклоненных состояниях. Он извлекает навыки как из успешных, так и из неудачных проходов, используя их для направления продолжения политики, смешанной с экспертными траекториями. На OSWorld-Verified SGCD повышает показатели успеха трех базовых моделей с уровня 30% до более чем 50%.

arxiv arXiv cs.AI · 7 д назад

Разделение поиска от рассуждений в агентах на основе языковых моделей

Разделение поиска для фундаментальной поддержки (DSG) отделяет функциональность поиска от моделей рассуждений, позволяя использовать поисковую поддержку, независимую от поставщика, настраиваемую и повторно используемую. DSG достигает почти естественной точности на SimpleQA с 91% меньшими затратами на поиск и 99,4% частотой попадания в тёплую кэш-память, одновременно снижая задержку на 68% и сохраняя краткие контракты вывода.

arxiv arXiv cs.AI · 7 д назад

RTSGameBench: Бенчмарк для стратегического мышления в играх

RTSGameBench решает ограничения существующих бенчмарков для игр в реальном времени, предлагая разнообразные игровые сценарии, направленную диагностику компетенций и генерацию сценариев, развивающихся самостоятельно. Он оценивает модели визуально-языковых моделей в стратегическом мышлении при неопределённости, показывая, что самые передовые модели сталкиваются с трудностями при координации нескольких агентов и выполнении масштабных задач.

arxiv arXiv cs.AI · 7 д назад

ThinkDeception: Интерпретируемая многомодальная система обнаружения лжи

ThinkDeception представляет прогрессивную систему обучения с усилением, позволяющую проводить интерпретируемое обнаружение лжи на основе нескольких модальностей. Она использует аннотированный пошаговый датасет Chain of Thought и предлагает метод оптимизации политики групп относительной визуальной-аудиальной согласованности с динамическим куррикулом, повышающий качество рассуждений и превосходящую существующие методы на основных бенчмарках.

arxiv arXiv cs.AI · 7 д назад

РОДС: Награда-ориентированное онлайн-синтезирование данных для агентов с многократным использованием инструментов

РОДС решает проблему истощения образцов в многократном использовании инструментов в RL с помощью вариации вознаграждения для обнаружения границ способностей. Он синтезирует новые данные в реальном времени, соответствующие структурной сложности образцов на границах, и поддерживает динамический буфер повторного использования, который эволюционирует вместе с политикой. РОДС достигает производительности, сравнимой с 17-тысячным офлайн-пайплайном, при 20 раз меньшем количестве траекторий.

arxiv arXiv cs.AI · 7 д назад

AdsMind: физически обоснованная многопользовательская система для открытия адсорбции

AdsMind — это замкнутый цикл многопользовательской системы, использующей машинное обучение с силовыми полями и обратную связь для исправления ошибок в поиске конфигураций адсорбции на катализаторах. Система достигает успеха на 100% и 98,8% на тестах AA20 и OCD-GMAE62, снижает разброс энергии в 14 раз по сравнению с базовыми моделями и сохраняет правильные знаки энергии адсорбции при проверке с помощью DFT, превосходя открытые циклы агентов на основе LLM.

arxiv arXiv cs.LG · 8 д назад

LegalHalluLens: аудит халлюцинаций в правовых ИИ

LegalHalluLens представляет рамку для аудита халлюцинаций ИИ в правовых контекстах, анализируя профили халлюцинаций при вводе по четырём категориям утверждений. Оно выявляет разрыв в 38-40 баллов между утверждениями о обязательствах/числовых и временных утверждениях, и показывает, что два системы с одинаковыми показателями 52% халлюцинаций могут иметь противоположные направления риска. Рамка использует индекс направления риска и калиброванные дебатные потоки для снижения выявленных халлюцинаций на 45%, предоставляя практические диагностики для надежного внедрения правового ИИ.

arxiv arXiv cs.LG · 8 д назад

NoiseTilt: Noise-Tilted Reverse Kernels для выравнивания вознаграждения в диффузионных моделях

NoiseTilt вводит NTRK, диффузионный образовательный сэмплер, который вводит градиенты вознаграждения через компонент шума без изменения обратного ядра. Используя оператор белого шума, NTRK безопасно смещает шум в сторону высоких вознаграждений, сохраняя качество образцов при обеспечении сильного направления. В задаче эстетического генерирования NTRK достигает превосходной производительности по вознаграждению при 25 NFE, снижая вычислительные затраты на 20× по сравнению с существующими базовыми моделями.

arxiv arXiv cs.LG · 8 д назад

Составная обобщение в рациональных процессах языковых моделей

Модель иерархического скрытого выбора показывает, что подкрепленная настройка и обучение с помощью вознаграждения работают совместно для обеспечения составного обобщения в языковых моделях. Подкрепленная настройка предоставляет сырье модулей, в то время как обучение с помощью вознаграждения идентифицирует и переключает атомные модули из сложных следов для решения новых задач. Обучение на сложных следах приводит к более сильному обобщению, чем обучение отдельных модулей, и был найден эффективный протокол, при котором подкрепленная настройка обеспечивает покрытие модулей, а обучение с помощью вознаграждения стимулирует изучение новых составов.

arxiv arXiv cs.CL · 8 д назад

LegalHalluLens: аудит галлюцинаций в правовом ИИ

LegalHalluLens представляет рамку для аудита галлюцинаций ИИ в правовых контекстах, анализируя профили галлюцинаций при вводе по четырём категориям утверждений. Оно выявляет разрыв в 38-40 баллов между утверждениями о обязательствах/числовых и временных утверждениях, и показывает, что две системы с одинаковыми показателями 52% галлюцинаций могут иметь противоположные направления риска. Рамка использует Индекс направления риска и калиброванные дебатные потоки для снижения выявления фальшивых утверждений на 45% и повышения ответственности при внедрении правового ИИ.

arxiv arXiv cs.CL · 8 д назад

ProvenanceGuard: проверка достоверности с учетом источника для агентов на основе LLM с использованием MCP

ProvenanceGuard вводит проверяющий модуль с учетом источника для агентов на основе LLM с использованием MCP, который обнаруживает пересечение источников путем направления утверждений к конкретным источникам доказательств и сравнения заявленного принадлежности с фактическим владением источником. Он достигает значения F1 по блокам 0,802 и точности по источникам 0,858 на 260 утверждениях, имеющих источники, превосходя базовые модели без учета источника, и обнаруживает все введенные обмены принадлежности в 50 клинических тестах.