Лаборатория · OpenAI
arxiv arXiv cs.AI · 7 д назад

WorldLines: Оценка памяти агентов с долгосрочными горизонтами в условиях пребывания

WorldLines представляет проектную метрику для долгосрочных горизонтов пребывания в домашних условиях, захватывающую расширенные следы домашней среды с диалогами, действиями и изменениями состояния. Оно обеспечивает образцы, связанные с доказательствами, для задачи оценки памяти и планирования задач в условиях пребывания, и предлагает ObsMem — рамку памяти, основанную на наблюдении, поддерживающую память, учитывающую видимость, и решения, учитывающие состояние. Эксперименты подчеркивают трудности, связанные с частичной наблюдаемостью и переводом памяти, при этом ObsMem предлагает более сильную архитектуру для таких условий.

arxiv arXiv cs.AI · 7 д назад

Навык-ориентированная дистилляция для агентов интерфейса

SGCD вводит итеративную структуру для улучшения агентов интерфейса, решая пробелы в контроле в отклоненных состояниях. Он извлекает навыки как из успешных, так и из неудачных проходов, используя их для направления продолжения политики, смешанной с экспертными траекториями. На OSWorld-Verified SGCD повышает показатели успеха трех базовых моделей с уровня 30% до более чем 50%.

arxiv arXiv cs.AI · 7 д назад

Разделение поиска от рассуждений в агентах на основе языковых моделей

Разделение поиска для фундаментальной поддержки (DSG) отделяет функциональность поиска от моделей рассуждений, позволяя использовать поисковую поддержку, независимую от поставщика, настраиваемую и повторно используемую. DSG достигает почти естественной точности на SimpleQA с 91% меньшими затратами на поиск и 99,4% частотой попадания в тёплую кэш-память, одновременно снижая задержку на 68% и сохраняя краткие контракты вывода.

arxiv arXiv cs.AI · 7 д назад

RTSGameBench: Бенчмарк для стратегического мышления в играх

RTSGameBench решает ограничения существующих бенчмарков для игр в реальном времени, предлагая разнообразные игровые сценарии, направленную диагностику компетенций и генерацию сценариев, развивающихся самостоятельно. Он оценивает модели визуально-языковых моделей в стратегическом мышлении при неопределённости, показывая, что самые передовые модели сталкиваются с трудностями при координации нескольких агентов и выполнении масштабных задач.

arxiv arXiv cs.AI · 7 д назад

ThinkDeception: Интерпретируемая многомодальная система обнаружения лжи

ThinkDeception представляет прогрессивную систему обучения с усилением, позволяющую проводить интерпретируемое обнаружение лжи на основе нескольких модальностей. Она использует аннотированный пошаговый датасет Chain of Thought и предлагает метод оптимизации политики групп относительной визуальной-аудиальной согласованности с динамическим куррикулом, повышающий качество рассуждений и превосходящую существующие методы на основных бенчмарках.

arxiv arXiv cs.AI · 7 д назад

TRAP: Бенчмарк для выполнения задач и устойчивости к активному извлечению приватной информации

TRAP оценивает, насколько хорошо модели выполняют задачи с использованием приватных данных без их утечки. При анализе 22 моделей все показывают не тривиальную утечку приватной информации, причем способность следовать инструкциям связана с более высокой утечкой. Структурная изоляция приватных полей предотвращает утечку, заменяя приватные поля на хеш-ключи, сохраняя точность выполнения задач без ущерба для приватности.

arxiv arXiv cs.AI · 7 д назад

РОДС: Награда-ориентированное онлайн-синтезирование данных для агентов с многократным использованием инструментов

РОДС решает проблему истощения образцов в многократном использовании инструментов в RL с помощью вариации вознаграждения для обнаружения границ способностей. Он синтезирует новые данные в реальном времени, соответствующие структурной сложности образцов на границах, и поддерживает динамический буфер повторного использования, который эволюционирует вместе с политикой. РОДС достигает производительности, сравнимой с 17-тысячным офлайн-пайплайном, при 20 раз меньшем количестве траекторий.

arxiv arXiv cs.AI · 7 д назад

AdsMind: физически обоснованная многопользовательская система для открытия адсорбции

AdsMind — это замкнутый цикл многопользовательской системы, использующей машинное обучение с силовыми полями и обратную связь для исправления ошибок в поиске конфигураций адсорбции на катализаторах. Система достигает успеха на 100% и 98,8% на тестах AA20 и OCD-GMAE62, снижает разброс энергии в 14 раз по сравнению с базовыми моделями и сохраняет правильные знаки энергии адсорбции при проверке с помощью DFT, превосходя открытые циклы агентов на основе LLM.

arxiv arXiv cs.LG · 8 д назад

LegalHalluLens: аудит халлюцинаций в правовых ИИ

LegalHalluLens представляет рамку для аудита халлюцинаций ИИ в правовых контекстах, анализируя профили халлюцинаций при вводе по четырём категориям утверждений. Оно выявляет разрыв в 38-40 баллов между утверждениями о обязательствах/числовых и временных утверждениях, и показывает, что два системы с одинаковыми показателями 52% халлюцинаций могут иметь противоположные направления риска. Рамка использует индекс направления риска и калиброванные дебатные потоки для снижения выявленных халлюцинаций на 45%, предоставляя практические диагностики для надежного внедрения правового ИИ.

arxiv arXiv cs.LG · 8 д назад

NoiseTilt: Noise-Tilted Reverse Kernels для выравнивания вознаграждения в диффузионных моделях

NoiseTilt вводит NTRK, диффузионный образовательный сэмплер, который вводит градиенты вознаграждения через компонент шума без изменения обратного ядра. Используя оператор белого шума, NTRK безопасно смещает шум в сторону высоких вознаграждений, сохраняя качество образцов при обеспечении сильного направления. В задаче эстетического генерирования NTRK достигает превосходной производительности по вознаграждению при 25 NFE, снижая вычислительные затраты на 20× по сравнению с существующими базовыми моделями.

arxiv arXiv cs.LG · 8 д назад

Составная обобщение в рациональных процессах языковых моделей

Модель иерархического скрытого выбора показывает, что подкрепленная настройка и обучение с помощью вознаграждения работают совместно для обеспечения составного обобщения в языковых моделях. Подкрепленная настройка предоставляет сырье модулей, в то время как обучение с помощью вознаграждения идентифицирует и переключает атомные модули из сложных следов для решения новых задач. Обучение на сложных следах приводит к более сильному обобщению, чем обучение отдельных модулей, и был найден эффективный протокол, при котором подкрепленная настройка обеспечивает покрытие модулей, а обучение с помощью вознаграждения стимулирует изучение новых составов.

arxiv arXiv cs.LG · 8 д назад

Нарушение ввода с помощью тройных фигурных скобок в Handlebars, позволяющее использовать разделители ролей

Тройное вставление фигурных скобок в Handlebars не защищает от ввода ролей структур, поскольку экранирование HTML нейтрализует только разделители в виде угловых скобок. Оно оставляет разделители в виде точки и хеш-символов Markdown без изменения, что позволяет атакующим перехватывать поведение модели. По умолчанию экранирование не защищает большинство схем разделителей ролей и не может заменить четкое разделение инструкций и данных.

arxiv arXiv cs.CL · 8 д назад

LegalHalluLens: аудит галлюцинаций в правовом ИИ

LegalHalluLens представляет рамку для аудита галлюцинаций ИИ в правовых контекстах, анализируя профили галлюцинаций при вводе по четырём категориям утверждений. Оно выявляет разрыв в 38-40 баллов между утверждениями о обязательствах/числовых и временных утверждениях, и показывает, что две системы с одинаковыми показателями 52% галлюцинаций могут иметь противоположные направления риска. Рамка использует Индекс направления риска и калиброванные дебатные потоки для снижения выявления фальшивых утверждений на 45% и повышения ответственности при внедрении правового ИИ.

arxiv arXiv cs.CL · 8 д назад

ProvenanceGuard: проверка достоверности с учетом источника для агентов на основе LLM с использованием MCP

ProvenanceGuard вводит проверяющий модуль с учетом источника для агентов на основе LLM с использованием MCP, который обнаруживает пересечение источников путем направления утверждений к конкретным источникам доказательств и сравнения заявленного принадлежности с фактическим владением источником. Он достигает значения F1 по блокам 0,802 и точности по источникам 0,858 на 260 утверждениях, имеющих источники, превосходя базовые модели без учета источника, и обнаруживает все введенные обмены принадлежности в 50 клинических тестах.

arxiv arXiv cs.CL · 8 д назад

SkillWeaver: Составная маршрутизация навыков для агентов на основе языковых моделей

SkillWeaver вводит рамку декомпозиции-получения-составления для агентов на основе языковых моделей, формализующую проблему составной маршрутизации навыков. Он достигает точности декомпозиции на уровне 67,7% с помощью итеративной декомпозиции с учетом навыков (SAD), улучшая результат с 51,0% с p-значением менее 10^-6, и снижает использование окна контекста более чем на 99%.

arxiv arXiv cs.CL · 8 д назад

Уязвимость ввода тройных фигурных скобок в Handlebars, позволяющая внедрять роли структур

Тройное вставление фигурных скобок в Handlebars не защищает от внедрения ролей структур, поскольку экранирование HTML нейтрализует только разделители в виде угловых скобок. Оно не затрагивает разделители в виде точки и хеш-символа Markdown, что позволяет атакующим перехватывать ходы модели. По умолчанию экранирование не защищает большинство семей разделителей ролей и не может заменить структурное разделение инструкций и данных.

arxiv arXiv cs.CL · 8 д назад

Оценка агентов показывает, что модели ИИ не могут избегать эксплуатации животных

TAC, первый агентный бенчмарк для скрытой защиты животных, проверяет способность агентов ИИ избегать эксплуатации животных в сценариях бронирования путешествий. Все семь передовых моделей получают оценку ниже 64%, лучшая из них — 53%, и даже незначительные улучшения запроса дают лишь незначительные результаты. Проверка не выявила признаков осознания оценки, что указывает на разрыв в производительности, обусловленный отсутствием истинного мышления по вопросам благополучия животных, а не распознаванием запросов.

arxiv arXiv cs.CL · 8 д назад

d-OPSD: Самодистилляция на основе политики для диффузионных LLM

d-OPSD — первый фреймворк самодистилляции на основе политики, разработанный для диффузионных LLM. Он использует самогенерируемые ответы как субъектное условие и супервизию на уровне шагов, что позволяет эффективно проводить постобучивание с использованием около 10% шагов оптимизации RLVR, при этом превосходя базовые методы RLVR и SFT на четырёх задачах логического мышления.

arxiv arXiv cs.LG · 8 д назад

SkillMigrator: Переносимые паттерны взаимодействия для эффективности веб-агента

SkillMigrator обучает переносимые веб-навыки, сопоставляя структуры разметки вместо ссылок на элементы. Он хранит каждый навык как переносимый паттерн взаимодействия с структурной схемой, что обеспечивает эффективную передачу навыков между сайтами. По сравнению с методами, достигающими передовых результатов, он снижает среднее количество действий LLM на 8-10% на WebArena и Mind2Web при равных показателях успеха.

arxiv arXiv cs.LG · 8 д назад

Модели визуально-языковых систем не всегда нуждаются в изображениях для точности рентгеновских снимков грудной клетки

Каузальный аудит показывает, что многие визуально-языковые модели достигают высокой точности рентгеновских снимков грудной клетки без использования изображений. Текстовые модели достигают одинаковой производительности с мультимодальными моделями и превосходят их в области сопоставления, при этом показатели точности и уверенности появляются только при использовании изображений. Эти результаты указывают на то, что точность в отдельности недостаточна для подтверждения клинического внедрения, и необходимо оценивать сопоставление.