AI agents
arxiv arXiv cs.CL · 7 д назад

LegalWorld: Циклическая среда для юридических агентов

LegalWorld моделирует китайские гражданские судебные разбирательства как причинно связанный цепочку из пяти стадий, основываясь на 75 309 решениях. В нем включены повторно используемые инфраструктуры для поддержания согласованности на всех стадиях и позволяет LongJud-Bench оценивать производительность агентов на всех этапах, выявляя значительные пробелы в способностях моделей в различных юридических задачах.

arxiv arXiv cs.CL · 7 д назад

HandwritingAgent: синтез ручного почерка на основе языка в SVG

HandwritingAgent синтезирует естественный ручной почерк в формате SVG без специфического обучения стилю. Он использует большой модельный рациональный процесс для генерации последовательностей линий на сетке холста, с учетом текстового ввода и образца стиля, обеспечивая эффективное, управляемое и обобщаемое генерирование почерка.

arxiv arXiv cs.CL · 7 д назад

GateMem: Оценка управления памятью в агентах с общей памятью, действующих в интересах нескольких принципалов

GateMem представляет бенчмарк для агентов с общей памятью, действующих в интересах нескольких принципалов, оценивающий полезность, контроль доступа и активное забвение в областях медицины, офиса, образования и домашнего хозяйства. Никакой метод не достигает сильной производительности по всем трём аспектам управления, при этом использование длинных контекстов показывает лучшие результаты при высокой стоимости, в то время как методы на основе извлечения и внешней памяти снижают стоимость, но все еще страдают от утечек информации.

arxiv arXiv cs.CL · 7 д назад

Данные рецептура повышает долгосрочное мышление в больших языковых моделях

Центрированный на данных подход улучшает долгосрочное мышление в больших языковых моделях, используя восемь отобранных наборов данных с 14 тысячами примерами в задачах поиска, синтеза многоуровневых доказательств и мышления. При сочетании с минимальным обучением на основе результатов GRPO достигается средний рост на 7,2 до 6,4 баллов на семи бенчмарках, превосходя предыдущие наборы обучения по релевантности, и улучшает агентную производительность на 4,8 и 7,0 баллов соответственно на GAIA и BrowseComp.

arxiv arXiv cs.CL · 7 д назад

ScholarSum: суммаризация студент-учитель через логическое обоснование знаний

ScholarSum представляет иерархическую систему знаний, имитирующую процесс студента-учителя для научной суммаризации. Он генерирует гладкие и фактически корректные суммаризации, сначала структурируя документы в семантические единицы, а затем улучшая черновые варианты с помощью поиска доказательств и итеративного ревью, осуществляемого компонентом, имитирующим учительскую роль. Эксперименты показывают, что ScholarSum превосходит существующие методы по полноте и фактической достоверности.

arxiv arXiv cs.CL · 7 д назад

Рубрик-ориентированные контрфактные рекомендации для медицинской коммуникации

Новая система использует языковые модели для рекомендации минимальных и интерпретируемых изменений в характеристиках коммуникации между пациентом и врачом, таких как тон и персонализация. Эти изменения увеличивают прогнозируемую положительную обратную связь в среднем на 6,41%, и являются неотрицательными для 93,31% случаев, не изменяя медицинского содержимого.

arxiv arXiv cs.CL · 7 д назад

SAGE: Случайная оптимизация промптов с помощью экспериментального руководства агентов

SAGE — это многоагентная система для оптимизации промптов, которая объединяет выполнение диагностического кода и количественную проверку. Она повышает удержание чат-ботов по вопросам психического здоровья, объединяя восемь циклов шумных A/B-тестов в статистически значимые результаты, демонстрируя эффективность в задачах открытого диалога за счёт интеграции качественной и количественной обратной связи.

arxiv arXiv cs.CL · 7 д назад

SenFlow: Расширенная детекция текста, сгенерированного ИИ, в гибридных документах

SenFlow представляет новую методику детекции текста, сгенерированного ИИ, в гибридных документах, моделируя зависимости между предложениями. Он достигает наилучших результатов на MOSAIC, бенчмарке из 16 000 документов из PubMed и XSum, с ростом Macro-F1 на 4,15 пунктов при переходе между доменами. SenFlow показывает, что текст, сгенерированный ИИ, по-прежнему демонстрирует зависимости между предложениями, зависящие от генератора, которые могут быть использованы детекторами на уровне предложений, несмотря на фильтрацию по перплексности.

arxiv arXiv cs.CL · 7 д назад

Разделение поиска от рассуждений в агентах на основе языковых моделей

Разделенный поисковый фундамент (DSG) отделяет функциональность поиска от моделей рассуждений, обеспечивая вендор-независимый, настраиваемый и повторно используемый поисковый фундамент. DSG достигает почти естественной точности на SimpleQA с 91% меньшими затратами на поиск и 99,4% частотой попадания в тёплую кэш-память, одновременно снижая задержку на 68% и сохраняя краткие контракты выходных данных.

arxiv arXiv cs.CL · 7 д назад

GraphPO: графовая оптимизация политики для моделей рассуждения

GraphPO вводит направленную ациклическую графовую структуру для представления рассуждений, объединяя семантически эквивалентные пути для снижения избыточного исследования. Оно присваивает эффективность и корректность к рёбрам, улучшая эффективность инференса и надзор за процессом, одновременно снижая дисперсию оценки преимуществ. Эксперименты показывают, что GraphPO превосходит методы на основе цепей и деревьев на трёх моделях языковых моделей по задачам рассуждения и агентского поиска при одинаковых объёмах токенов или ответов.

arxiv arXiv cs.CL · 7 д назад

Ведение как координационное управление в мультиагентных командах на основе LLM

Уровневое координационное управление приносит ценность только тогда, когда начальное большинство согласия неустойчиво, задача восстанавливаема и непод руководством взаимодействие не может исправить ошибки. При проведении экспериментов по различным моделям и задачам, ни один стиль ведения не превосходит других по точности, что соответствует теории контингентности, а не указывает на неудачу подхода.

arxiv arXiv cs.CL · 7 д назад

Кадровый фреймворк человеческой-искусственной интеллект-совместной эволюции раскрывает появление социальной интеллектуальности

Фреймворк динамик человеческой-искусственной интеллект-совместной эволюции (HACD-H) вводит единый модель для долгосрочного взаимодействия человека и ИИ, интегрируя эмоциональную адаптацию, память и личность в самоорганизующуюся социальную когнитивную систему. Результаты показывают, что социальная интеллектуальность возникает через совместную эволюцию, при этом наблюдается значительная отрицательная корреляция между социальной интеллектуальностью и социальной когнитивной энергией (r = -0,391, p < 0,001), а также прогрессивное снижение энергии в траекториях взаимодействия со временем.

arxiv arXiv cs.CL · 7 д назад

IndicContextEval: бенчмарк для использования контекста в аудио-моделях языковых моделей

IndicContextEval представляет 56-часовой мультяжный бенчмарк, включающий естественные речевые данные 555 говорящих из 8 индийских языков и 23 областей. В нем используется 7-уровневая система запросов для постепенного тестирования использования контекста, включая метаданные, описания и противоречивые вводы. Оценка пяти моделей показывает значительные различия в контекстной фиксации, что подчеркивает необходимость явной оценки использования контекста в аудио-моделях языковых моделей.

arxiv arXiv cs.AI · 7 д назад

R2D-RL: среда 2D футбола RoboCup для MARL

R2D-RL связывает RCSS2D и клиенты на базе HELIOS с помощью интерфейса Python для MARL, используя общий памяти и синхронизацию на уровне циклов. Оно позволяет проводить обучение на поле и в сценариях с настраиваемыми противниками, масками действий, формирования вознаграждений на основе EPV и параллельной обработкой, включая сценарии перед воротами и бенчмарк 11-на-11 с базовыми результатами.

arxiv arXiv cs.AI · 7 д назад

ProfiLLM: профилирование пользователей с ориентацией на полезность для распределения заказов в промышленных сервисах такси

ProfiLLM представляет агентную систему обработки больших моделей, которая извлекает поведенческие сигналы из журналов таксопарков для формирования профилей пользователей. Она обеспечивает увеличение относительного AUC до +6,14% и рост GMV до +4,35% в симуляциях распределения заказов, при этом в реальных онлайн-экспериментах A/B наблюдается стабильное улучшение на +0,47% GMV, +0,33% показателя выполнения заказа и снижение показателя отмены заказа до +0,82%.

arxiv arXiv cs.AI · 7 д назад

Фундаментальные модели обучения с усилением должны быть уже существующими

Обучение с усилением не имеет фундаментальных моделей, несмотря на то, что синтетические МДП являются возможными. Прототип показывает, что одна модель, обученная на синтетических МДП, решает табличные задачи без настройки, превосходя существующие методы в онлайн-сценариях и соответствуя им в оффлайн-сценариях.

arxiv arXiv cs.AI · 7 д назад

Пространство — это интеллект: нейронная семигрупповая суперпозиция для генерации римановой метрики

Интеллект встроенный в само пространство, где сцены индуцируют риманову метрику на конфигурационных многообразиях. Одна сеть Encoder-Router использует семигрупповую суперпозицию для генерации этой метрики, обеспечивая нулевую обобщаемость на неизвестных конфигурациях препятствий с большими затратами между путями без столкновений и путями, проходящими через препятствия.

arxiv arXiv cs.AI · 7 д назад

Данные рецепт улучшает долгосрочное мышление в больших языковых моделях

Центрированный на данных подход улучшает долгосрочное мышление в больших языковых моделях, используя восемь отобранных наборов данных с 14 тысячами примерами в задачах поиска, синтеза многочисленных доказательств и мышления. При сочетании с минимальным обучением на основе результатов GRPO, он достигает средних приростов на 7,2 до 6,4 баллов на семи бенчмарках, превосходя предыдущие наборы для обучения по методу RL, и улучшает агентную производительность на 4,8 и 7,0 баллов соответственно на GAIA и BrowseComp.

arxiv arXiv cs.AI · 7 д назад

Skill-MAS: Эволюционная метаскилл для автоматических систем многоагентов

Skill-MAS вводит новый подход, который разделяет сохранение опыта от параметрических обновлений, моделируя оркестрацию как эволюционную метаскилл. Он использует замкнутый процесс, включающий многотраекторные развертывания и селективное отражение, для выделения повторно используемых принципов стратегии, обеспечивая значительные улучшения производительности и устойчивую переносимость между задачами и ЛЛМ.

arxiv arXiv cs.AI · 8 д назад

WorldLines: Оценка памяти агентов с долгосрочными горизонтами в условиях пребывания

WorldLines представляет проектную метрику для долгосрочных горизонтов пребывания в домашних условиях, захватывающую расширенные следы домашней среды с диалогами, действиями и изменениями состояния. Оно обеспечивает образцы, связанные с доказательствами, для задачи оценки памяти и планирования задач в условиях пребывания, и предлагает ObsMem — рамку памяти, основанную на наблюдении, поддерживающую память, учитывающую видимость, и решения, учитывающие состояние. Эксперименты подчеркивают трудности, связанные с частичной наблюдаемостью и переводом памяти, при этом ObsMem предлагает более сильную архитектуру для таких условий.