Источник · arXiv cs.AI
arxiv arXiv cs.AI · 7 д назад

Агенты интеллектуального анализа данных обеспечивают автономный запрос данных

Агенты интеллектуального анализа данных (DIA) развертывают автономных агентов программирования для оптимизации рабочих процессов с данными в корпоративной среде. Генератор запросов достигает или превосходит лучшие публикуемые результаты на семи бенчмарках SQL по четырём синтаксисам, демонстрируя обобщение через естественные инструкции и архитектуру выполнения запросов.

arxiv arXiv cs.AI · 7 д назад

ScenA: Система генерации аудио-сцены на основе ссылок

ScenA настраивает текстово-аудио модель на основе нескольких ссылочных голосов и естественного языкового запроса сцены для генерации реалистичных разговоров с несколькими участниками. Она решает проблему "сокращения ссылки" за счёт использования тренировочного расписания с высоким уровнем шума, обеспечивая привязку голосов на основе текстовых запросов, а не на основе акустической схожести. Оценка на CoVoMix2-Dialogue показывает, что ScenA превосходит существующие системы по привязке участников и генерирует богатые, естественные аудио-сцены с перекрывающимися речевыми фрагментами и фоновым шумом.

arxiv arXiv cs.AI · 7 д назад

Кадрово-условная самодистилляция

Кадрово-условная самодистилляция представляет собой рамку, которая использует структурированные критерии для предоставления детализированных, уровня токена обратной связи во время самодистилляции рациональных языковых моделей. При условии учитывания учителей на уровне критериев кадров, достигается более точное присвоение кредитов по сравнению с скалярными вознаграждениями, превосходя GRPO и OPSD на 1,0 и 0,9 пунктов в среднем по научным рациональным тестам.

arxiv arXiv cs.AI · 7 д назад

ProfiLLM: профилирование пользователей с ориентацией на полезность для распределения заказов в промышленных сервисах такси

ProfiLLM представляет агентную систему обработки больших моделей, которая извлекает поведенческие сигналы из журналов таксопарков для формирования профилей пользователей. Она обеспечивает увеличение относительного AUC до +6,14% и рост GMV до +4,35% в симуляциях распределения заказов, при этом в реальных онлайн-экспериментах A/B наблюдается стабильное улучшение на +0,47% GMV, +0,33% показателя выполнения заказа и снижение показателя отмены заказа до +0,82%.

arxiv arXiv cs.AI · 7 д назад

Самоусловленное присвоение кредитов для RL с подтверждаемыми вознаграждениями

SC-GRPO использует разность КЛ на уровне токена из самоусловленных траекторий для взвешивания градиентов в обучении с участием вознаграждений. Он превосходит GRPO на 8,1% и DAPO на 5,9% при выполнении задач по математике, программированию и агентским задачам, демонстрируя превосходную производительность при работе с распределениями, отличающимися от обучающих, и лучшие результаты по сравнению с OPD.

arxiv arXiv cs.AI · 7 д назад

Данные рецепт улучшает долгосрочное мышление в больших языковых моделях

Центрированный на данных подход улучшает долгосрочное мышление в больших языковых моделях, используя восемь отобранных наборов данных с 14 тысячами примерами в задачах поиска, синтеза многочисленных доказательств и мышления. При сочетании с минимальным обучением на основе результатов GRPO, он достигает средних приростов на 7,2 до 6,4 баллов на семи бенчмарках, превосходя предыдущие наборы для обучения по методу RL, и улучшает агентную производительность на 4,8 и 7,0 баллов соответственно на GAIA и BrowseComp.

arxiv arXiv cs.AI · 7 д назад

Skill-MAS: Эволюционная метаскилл для автоматических систем многоагентов

Skill-MAS вводит новый подход, который разделяет сохранение опыта от параметрических обновлений, моделируя оркестрацию как эволюционную метаскилл. Он использует замкнутый процесс, включающий многотраекторные развертывания и селективное отражение, для выделения повторно используемых принципов стратегии, обеспечивая значительные улучшения производительности и устойчивую переносимость между задачами и ЛЛМ.

arxiv arXiv cs.AI · 7 д назад

WorldLines: Оценка памяти агентов с долгосрочными горизонтами в условиях пребывания

WorldLines представляет проектную метрику для долгосрочных горизонтов пребывания в домашних условиях, захватывающую расширенные следы домашней среды с диалогами, действиями и изменениями состояния. Оно обеспечивает образцы, связанные с доказательствами, для задачи оценки памяти и планирования задач в условиях пребывания, и предлагает ObsMem — рамку памяти, основанную на наблюдении, поддерживающую память, учитывающую видимость, и решения, учитывающие состояние. Эксперименты подчеркивают трудности, связанные с частичной наблюдаемостью и переводом памяти, при этом ObsMem предлагает более сильную архитектуру для таких условий.

arxiv arXiv cs.AI · 7 д назад

Навык-ориентированная дистилляция для агентов интерфейса

SGCD вводит итеративную структуру для улучшения агентов интерфейса, решая пробелы в контроле в отклоненных состояниях. Он извлекает навыки как из успешных, так и из неудачных проходов, используя их для направления продолжения политики, смешанной с экспертными траекториями. На OSWorld-Verified SGCD повышает показатели успеха трех базовых моделей с уровня 30% до более чем 50%.

arxiv arXiv cs.AI · 7 д назад

Разделение поиска от рассуждений в агентах на основе языковых моделей

Разделение поиска для фундаментальной поддержки (DSG) отделяет функциональность поиска от моделей рассуждений, позволяя использовать поисковую поддержку, независимую от поставщика, настраиваемую и повторно используемую. DSG достигает почти естественной точности на SimpleQA с 91% меньшими затратами на поиск и 99,4% частотой попадания в тёплую кэш-память, одновременно снижая задержку на 68% и сохраняя краткие контракты вывода.

arxiv arXiv cs.AI · 7 д назад

RTSGameBench: Бенчмарк для стратегического мышления в играх

RTSGameBench решает ограничения существующих бенчмарков для игр в реальном времени, предлагая разнообразные игровые сценарии, направленную диагностику компетенций и генерацию сценариев, развивающихся самостоятельно. Он оценивает модели визуально-языковых моделей в стратегическом мышлении при неопределённости, показывая, что самые передовые модели сталкиваются с трудностями при координации нескольких агентов и выполнении масштабных задач.

arxiv arXiv cs.AI · 7 д назад

ThinkDeception: Интерпретируемая многомодальная система обнаружения лжи

ThinkDeception представляет прогрессивную систему обучения с усилением, позволяющую проводить интерпретируемое обнаружение лжи на основе нескольких модальностей. Она использует аннотированный пошаговый датасет Chain of Thought и предлагает метод оптимизации политики групп относительной визуальной-аудиальной согласованности с динамическим куррикулом, повышающий качество рассуждений и превосходящую существующие методы на основных бенчмарках.

arxiv arXiv cs.AI · 7 д назад

TRAP: Бенчмарк для выполнения задач и устойчивости к активному извлечению приватной информации

TRAP оценивает, насколько хорошо модели выполняют задачи с использованием приватных данных без их утечки. При анализе 22 моделей все показывают не тривиальную утечку приватной информации, причем способность следовать инструкциям связана с более высокой утечкой. Структурная изоляция приватных полей предотвращает утечку, заменяя приватные поля на хеш-ключи, сохраняя точность выполнения задач без ущерба для приватности.

arxiv arXiv cs.AI · 7 д назад

Фокус: Использование GPU Spot для ускорения постобучивания DiT RL

Фокус позволяет осуществлять постобучивание DiT RL за счёт использования пустых GPU Spot, снижая расходы на 1,4–6,4 раза при достижении превосходного качества изображений. Оно использует устаревшие веса модели при исследовании и динамически перестраивает последовательную параллельность в реальном времени, обеспечивая эффективное использование GPU без нарушения обучающих цепочек.

arxiv arXiv cs.AI · 7 д назад

РОДС: Награда-ориентированное онлайн-синтезирование данных для агентов с многократным использованием инструментов

РОДС решает проблему истощения образцов в многократном использовании инструментов в RL с помощью вариации вознаграждения для обнаружения границ способностей. Он синтезирует новые данные в реальном времени, соответствующие структурной сложности образцов на границах, и поддерживает динамический буфер повторного использования, который эволюционирует вместе с политикой. РОДС достигает производительности, сравнимой с 17-тысячным офлайн-пайплайном, при 20 раз меньшем количестве траекторий.

arxiv arXiv cs.AI · 7 д назад

AdsMind: физически обоснованная многопользовательская система для открытия адсорбции

AdsMind — это замкнутый цикл многопользовательской системы, использующей машинное обучение с силовыми полями и обратную связь для исправления ошибок в поиске конфигураций адсорбции на катализаторах. Система достигает успеха на 100% и 98,8% на тестах AA20 и OCD-GMAE62, снижает разброс энергии в 14 раз по сравнению с базовыми моделями и сохраняет правильные знаки энергии адсорбции при проверке с помощью DFT, превосходя открытые циклы агентов на основе LLM.

arxiv arXiv cs.AI · 8 д назад

STAR: SpatioTemporal Adaptive Reward Allocation для генерации текста-в-изображение в RL после обучения

STAR вводит метод распределения вознаграждения в пространственно-временной области для генерации текста-в-изображение, используя карты внимания для динамического присвоения преимуществ на шагах дезактивации. Оно улучшает семантическую синхронизацию, отображение текста и оптимизацию предпочтений в Stable Diffusion 3.5 Medium, достигая 0.9759, 0.9757 и 23.60 на GenEval, OCR и PickScore соответственно.

arxiv arXiv cs.AI · 8 д назад

LegalHalluLens: аудит галлюцинаций в правовом ИИ

LegalHalluLens представляет рамку для аудита галлюцинаций ИИ в правовых контекстах, анализируя профили галлюцинаций при вводе по четырём категориям претензий. Оно выявляет разрыв в 38-40 баллов между претензиями о обязательствах/численных и временных претензиях, и показывает, что две системы с одинаковыми показателями 52% галлюцинаций могут иметь противоположные направления риска. Рамка использует индекс направления риска и калиброванные дебатные потоки для снижения обнаружения выдуманных данных на 45% и улучшения ответственности при внедрении правового ИИ.

arxiv arXiv cs.AI · 8 д назад

ProvenanceGuard: проверка фактичности с учетом источника для агентов на основе LLM с использованием MCP

ProvenanceGuard вводит проверяющий модуль с учетом источника для агентов на основе LLM с использованием MCP, который обнаруживает пересечение источников путем направления утверждений к конкретным источникам доказательств и сравнения указанного источника с фактическим владением источником. Он достигает значения F1 по блокам 0,802 и точности по источникам 0,858 на 260 утверждениях, имеющих источники, превосходя базовые модели без учета источника, и обнаруживает все вставленные замены атрибутов в 50 клинических пробах.

arxiv arXiv cs.AI · 8 д назад

Уязвимость ввода с помощью тройных фигурных скобок в Handlebars, позволяющая внедрять роли структуры

Тройное вставление фигурных скобок в Handlebars не защищает от внедрения ролей структуры, поскольку экранирование HTML нейтрализует только разделители в виде угловых скобок. Оно оставляет необработанными разделители в виде точки и хеш-символов Markdown, что позволяет атакующим перехватывать ходы модели. По умолчанию экранирование не защищает большинство семей разделителей и не может заменить структурное разделение инструкций и данных.