Лаборатория · OpenAI
arxiv arXiv cs.LG · 8 д назад

SkillMigrator: Переносимые паттерны взаимодействия для эффективности веб-агента

SkillMigrator обучает переносимые веб-навыки, сопоставляя структуры разметки вместо ссылок на элементы. Он хранит каждый навык как переносимый паттерн взаимодействия с структурной схемой, что обеспечивает эффективную передачу навыков между сайтами. По сравнению с методами, достигающими передовых результатов, он снижает среднее количество действий LLM на 8-10% на WebArena и Mind2Web при равных показателях успеха.

arxiv arXiv cs.LG · 8 д назад

Модели визуально-языковых систем не всегда нуждаются в изображениях для точности рентгеновских снимков грудной клетки

Каузальный аудит показывает, что многие визуально-языковые модели достигают высокой точности рентгеновских снимков грудной клетки без использования изображений. Текстовые модели достигают одинаковой производительности с мультимодальными моделями и превосходят их в области сопоставления, при этом показатели точности и уверенности появляются только при использовании изображений. Эти результаты указывают на то, что точность в отдельности недостаточна для подтверждения клинического внедрения, и необходимо оценивать сопоставление.

arxiv arXiv cs.LG · 8 д назад

Легкие экспериментальные скрытые воспоминания для непрерывного самоулучшения

Новый метод позволяет крупным языковым моделям учиться на собственных следах рассуждений без внешнего контроля. Сжимая вычисления во время инференса в легкие, модульные скрытые воспоминания, модель достигает результатов, сопоставимых с полным обучением, и превосходит базовые подходы без шаблонов и чистого ICL на задачах математического мышления, при минимальных вычислительных затратах.

arxiv arXiv cs.AI · 8 д назад

LegalHalluLens: аудит галлюцинаций в правовом ИИ

LegalHalluLens представляет рамку для аудита галлюцинаций ИИ в правовых контекстах, анализируя профили галлюцинаций при вводе по четырём категориям претензий. Оно выявляет разрыв в 38-40 баллов между претензиями о обязательствах/численных и временных претензиях, и показывает, что две системы с одинаковыми показателями 52% галлюцинаций могут иметь противоположные направления риска. Рамка использует индекс направления риска и калиброванные дебатные потоки для снижения обнаружения выдуманных данных на 45% и улучшения ответственности при внедрении правового ИИ.

arxiv arXiv cs.AI · 8 д назад

ProvenanceGuard: проверка фактичности с учетом источника для агентов на основе LLM с использованием MCP

ProvenanceGuard вводит проверяющий модуль с учетом источника для агентов на основе LLM с использованием MCP, который обнаруживает пересечение источников путем направления утверждений к конкретным источникам доказательств и сравнения указанного источника с фактическим владением источником. Он достигает значения F1 по блокам 0,802 и точности по источникам 0,858 на 260 утверждениях, имеющих источники, превосходя базовые модели без учета источника, и обнаруживает все вставленные замены атрибутов в 50 клинических пробах.

arxiv arXiv cs.AI · 8 д назад

Уязвимость ввода с помощью тройных фигурных скобок в Handlebars, позволяющая внедрять роли структуры

Тройное вставление фигурных скобок в Handlebars не защищает от внедрения ролей структуры, поскольку экранирование HTML нейтрализует только разделители в виде угловых скобок. Оно оставляет необработанными разделители в виде точки и хеш-символов Markdown, что позволяет атакующим перехватывать ходы модели. По умолчанию экранирование не защищает большинство семей разделителей и не может заменить структурное разделение инструкций и данных.

arxiv arXiv cs.AI · 8 д назад

TAC: Первый бенчмарк агентов по вопросам благополучия животных в ИИ

TAC оценивает, насколько ИИ-агенты избегают эксплуатации животных при бронировании поездок. Семь передовых моделей все показывают результат ниже уровня в 64%, при этом Claude Opus 4.7 достигает 53%. Добавление системы запроса с учетом благополучия животных значительно улучшает результаты, хотя модели не демонстрируют никаких признаков осознания оценки в своих ответах.

arxiv arXiv cs.AI · 8 д назад

WEQA: Вопросы о здоровье в носимых устройствах с адаптивным запросом агентской логики

WEQA представляет агентскую архитектуру, адаптирующую запросы, которая объединяет языковые модели с специализированными инструментами анализа данных в носимых устройствах. Она превосходит базовые модели LLM и агентов по точности на 24% и демонстрирует улучшенную полезность и клиническую надежность в экспертизных и пользовательских оценках.

arxiv arXiv cs.AI · 8 д назад

LEADS: агентское открытие гибридных моделей для кардиальной электрофизиологии

LEADS предлагает рамку, использующую агента LLM для открытия гибридных моделей кардиальной электрофизиологии через итеративный цикл рассуждения и действий. Он формулирует доменную знания как структурированное пространство действий, что позволяет создавать физически обоснованные, интерпретируемые и численно стабильные модели, превосходя как человечески спроектированные, так и другие подходы на основе LLM на синтетических и реальных кардиальных данных.

arxiv arXiv cs.CL · 8 д назад

NarrativeWorldBench и N-VSSM для длительных аудиодраматических сценариев

NarrativeWorldBench оценивает 21 LLM по девяти метрикам структуры сюжета на горизонтах от 10 до 200 эпизодов, с поддержкой межязыковых вариантов на хинди, тамильском, телугу и маратхи. N-VSSM, скрытая модель мира, использующая Mamba-2, достигает значения F1 по сюжетным точкам не менее 0,84 на всех горизонтах при вычислительной нагрузке в четыре раза ниже, чем у моделей с закрытым фронтом, и превосходит Claude Opus 4.5 по долгосрочной последовательности и управляемости в исследовании профессионального писателя.

arxiv arXiv cs.CL · 8 д назад

PARSE: Защита реальных документов для агентов на основе ЛЛМ

PARSE снижает успешность атаки инъекции промпта с 25,4% до 15,6% на реальных корпоративных документах в пяти профессиональных областях, с статистически значимым улучшением (p=0,014) и полезностью 86,9%. Он превосходит метод перефразирования и использует санитаризацию, учитывающую происхождение, для сохранения фактического содержимого, при этом большинство документов проходят через лёгкий путь.

arxiv arXiv cs.CL · 8 д назад

STATEWITNESS: Объяснитель активации для аудита лжи в LLMs

STATEWITNESS представляет объяснитель активации, который аудит ложь в логических LLMs, читая скрытые состояния и генерируя ответы на естественном языке или структурированные отчёты. Он достигает среднего AUROC в 0,916, превосходя существующие чёрные коробки мониторов и объяснители активации на 11,6% и 25,0% соответственно, и предоставляет отслеживание на уровне запроса, схемы и доказательств для проверки человеком.

arxiv arXiv cs.CL · 8 д назад

Падение и восстановление точности маршрутизации в системах агентов предприятий

При увеличении каталога инструментов агентов предприятий от 10 до 110 агентов, точность маршрутизации снижается на 16--23 процентных пункта при запросах с недостаточным описанием. Анализ с использованием оракула выявляет разрывы в извлечении и путанице, при использовании базы векторных представлений для сокращения списка результатов восстанавливается +10--11pp F1. Изучение 1435 изъятий с участием человека подтверждает реальное восстановление +10--17pp, несмотря на более низкую абсолютную производительность.

arxiv arXiv cs.CL · 8 д назад

Функции LLM могут навредить GNN через интерференцию при конкатенации

Конкатенация функций, сгенерированных LLM, к графовым нейронным сетям систематически снижает точность на тестах с гомофильными данными, при этом точность PubMed снижается на -17,0 ± 0,3 pp. Эта деградация связана с дискриминативностью LLM в отдельности (Delta_sig), которая коррелирует сильно с затратами на конкатенацию (r² = 0,38) и демонстрирует степенную зависимость от размера признаков и количества узлов (r² = 0,97), особенно в условиях низкого Delta_sig и низкого количества узлов.

arxiv arXiv cs.CL · 8 д назад

SkillMigrator обеспечивает передачу навыков веб-сайтов через совпадение разметки

SkillMigrator обучает повторноиспользуемые веб-навыки путем совпадения структур разметки, а не конкретных ссылок на элементы. Он хранит каждый навык как передаваемый паттерн взаимодействия (TIP) с структурной схемой, что позволяет эффективно использовать навыки на разных сайтах. В сравнении с современными методами, он снижает среднее количество действий LLM на 8-10% на WebArena и Mind2Web при достижении одинаковых уровней успеха.

arxiv arXiv cs.CL · 8 д назад

MambaCount: Эффективный текст-ориентированный подсчет объектов

MambaCount вводит пространственно разреженный блок двойственного состояния для обеспечения эффективного текст-ориентированного подсчета объектов в открытой лексике. Оно решает ограничения касательно причинной модели и высокую энтропию в ответах на пространственные токены, достигая лучших результатов на FSC-147 с тестовой ошибкой MAE 12.23, при этом сохраняя линейную сложность.

arxiv arXiv cs.CL · 8 д назад

Обучение LLM для среды обучения RL с многомодульным рассуждением

Фреймворк LLM-как-инженер-среды использует LLM для автоматического перестройки сред обучения в области робастного обучения, анализируя траектории неудач и контекстуальные данные. На тестовой платформе MAPF-FrozenLake он превосходит более крупные проприетарные LLM и базовые статичные среды, при этом Qwen3-4B достигает наилучшей общей производительности. Анализ показывает, что доказательства неудач и сохранённые рабочие конфигурации являются ключевыми, и текущий чекпоинт RL показывает лучшую производительность, чем базовая модель как инженер среды.

arxiv arXiv cs.CL · 8 д назад

SuCo: адаптивное обоснованное рассуждение, основанное на достаточности

SuCo вводит минимально достаточное рассуждение (MSC) как самое короткое начало рассуждения, достаточное для получения правильного ответа. Оно использует двухэтапную систему обучения — настройку MSC и оптимизацию политики с учетом достаточности — для сокращения длины рассуждения при сохранении или улучшении точности на задачах по математике, программированию и науке.

arxiv arXiv cs.CL · 8 д назад

Модели визуально-языковых систем не всегда требуют изображений для точности рентгеновского снимка грудной клетки

Каузальный аудит показывает, что текстовые модели без изображений достигают такой же точности, как и мультимодальные модели, при рентгеновском исследовании грудной клетки. В девяти системах текстовая модель показывает отклонение не более чем на 5,7 пунктов от лучшей мультимодальной модели, и модель на 119 миллиардов параметров неотличима от базовой текстовой модели на 7 миллиардов параметров. Оценка фундаментальности, а не точности, должна определять клиническое внедрение.

arxiv arXiv cs.CL · 9 д назад

Автоматизированная оптимизация промптов для агентов на основе ЛЛМ

Новый фреймворк автоматизирует улучшение промптов для агентов на основе ЛЛМ, разделяя поток от наблюдения до действия на модули с целью и выбора действия. Он использует эволюционный цикл, управляемый ЛЛМ, для итеративного улучшения промптов на основе обратной связи от среды, достигая до 72,5% успеха в PutNext, где предыдущие агенты не справлялись, без тонкой настройки модели.