AI agents
arxiv arXiv cs.CL · 8 д назад

PseudoBench: Оценка устойчивости агентных систем автоматического поиска к псевдонаучным утверждениям

PseudoBench оценивает способность агентных систем автоматического поиска обнаруживать псевдонаучные утверждения. При тестировании семи передовых агентов было выявлено почти нулевое количество отказов и только 27,4% устойчивости к псевдонаучным нарративам, при этом более сильные агенты часто используют сложную научную лексику для маскировки псевдонаучности.

arxiv arXiv cs.CL · 8 д назад

Уязвимость ввода тройных фигурных скобок в Handlebars, позволяющая внедрять роли структур

Тройное вставление фигурных скобок в Handlebars не защищает от внедрения ролей структур, поскольку экранирование HTML нейтрализует только разделители в виде угловых скобок. Оно не затрагивает разделители в виде точки и хеш-символа Markdown, что позволяет атакующим перехватывать ходы модели. По умолчанию экранирование не защищает большинство семей разделителей ролей и не может заменить структурное разделение инструкций и данных.

arxiv arXiv cs.CL · 8 д назад

Оценка агентов показывает, что модели ИИ не могут избегать эксплуатации животных

TAC, первый агентный бенчмарк для скрытой защиты животных, проверяет способность агентов ИИ избегать эксплуатации животных в сценариях бронирования путешествий. Все семь передовых моделей получают оценку ниже 64%, лучшая из них — 53%, и даже незначительные улучшения запроса дают лишь незначительные результаты. Проверка не выявила признаков осознания оценки, что указывает на разрыв в производительности, обусловленный отсутствием истинного мышления по вопросам благополучия животных, а не распознаванием запросов.

arxiv arXiv cs.CL · 8 д назад

Исследование со стороны красной команды показывает, что передовые LLM остаются уязвимыми перед автоматизированными атаками

Исследование со стороны красной команды по моделям Anthropic Fable 5 и Opus 4.8 показывает, что обе модели уязвимы к адаптивным итерационным атакам, при этом Opus 4.8 был проникнут на 11,5% интенций, а Fable -5 на 6,1%. Несмотря на прочные защиты, обе модели генерировали 1620 и 702 подтвержденных вредоносных завершений по всем категориям вреда, автоматически и эффективно при автоматизированных атаках.

arxiv arXiv cs.CL · 8 д назад

d-OPSD: Самодистилляция на основе политики для диффузионных LLM

d-OPSD — первый фреймворк самодистилляции на основе политики, разработанный для диффузионных LLM. Он использует самогенерируемые ответы как субъектное условие и супервизию на уровне шагов, что позволяет эффективно проводить постобучивание с использованием около 10% шагов оптимизации RLVR, при этом превосходя базовые методы RLVR и SFT на четырёх задачах логического мышления.

arxiv arXiv cs.CL · 8 д назад

ReproRepo: масштабирование аудитов воспроизводимости с использованием Issue GitHub

ReproRepo представляет масштабируемую архитектуру, использующую Issues GitHub для оценки воспроизводимости ML-статьй. Оно показывает, что агенты на основе LLM, такие как Codex с GPT-5.5, выявляют хотя бы один семантически связанный барьер в 90% пар статей и репозиториев без выполнения кода.

arxiv arXiv cs.LG · 8 д назад

Оценка траектории на основе предпочтений для агентных систем

Оффлайн-оценка агентных систем часто приводит к равным сравнениям в 75% случаев при использовании стандартных метрик на основе успеха. Оценка траектории на основе предпочтений снижает количество равных результатов до 35% за счёт сравнения профиля прогресса и профиля времени возврата, повышая дифференцирующую способность и эффективность использования данных. Эти результаты указывают на то, что насыщение бенчмарков может быть связано не только с данными или сложностью задачи, но и с выбором метода оценки.

arxiv arXiv cs.LG · 8 д назад

SkillMigrator: Переносимые паттерны взаимодействия для эффективности веб-агента

SkillMigrator обучает переносимые веб-навыки, сопоставляя структуры разметки вместо ссылок на элементы. Он хранит каждый навык как переносимый паттерн взаимодействия с структурной схемой, что обеспечивает эффективную передачу навыков между сайтами. По сравнению с методами, достигающими передовых результатов, он снижает среднее количество действий LLM на 8-10% на WebArena и Mind2Web при равных показателях успеха.

arxiv arXiv cs.LG · 8 д назад

EnvRL: Использование динамики среды в агентном RL

EnvRL представляет рамку, которая улучшает агентное обучение с помощью вознаграждения за интеграцию динамики среды через прогнозирование состояния и обратные динамические цели. При обучении с использованием GRPO, EnvRL повышает показатели успеха Qwen-2.5-1.5B-Instruct с 72,8% до 77,4% на ALFWorld и с 56,8% до 67,0% на WebShop.

arxiv arXiv cs.LG · 8 д назад

QueryMarket: Онлайн-активное обучение с учетом стоимости в рынках данных

QueryMarket вводит OVBAL, онлайн-рамку активного обучения на основе дисперсии, которая оценивает междупунктовую полезность каждого данных с использованием критерия D-оптимальности с экспоненциальным забвением. OVBAL выбирает образцы на основе полезности и цены, работает под условиями подвижного бюджета и адаптируется к сдвигу концептуальных моделей, демонстрируя улучшенные компромиссы между ошибками и затратами в задачах прогнозирования мощности солнечной энергии.

arxiv arXiv cs.LG · 8 д назад

Qwen-RobotManip достигает обобщения в роботизированной манипуляции

Qwen-RobotManip, фундаментальная модель на основе визуального-языкового-действия, позволяет проводить масштабную обучение за счет единого синхронизации в представлении, движении и поведении. Модель использует открытые данные для создания корпуса предобучения из 38 100 часов и демонстрирует возникающее обобщение, превосходя предыдущие передовые модели в условиях распределения за пределами распределения и занимает первое место в RoboChallenge с относительным улучшением на 20% на реальных роботах.

arxiv arXiv cs.LG · 8 д назад

WallZero побеждает профессиональных игроков Go в WallGo

WallZero, агент на основе AlphaZero, побеждает двух профессиональных игроков Go в WallGo, в среднем за игру занимая 1,98 раз больше территории. Исследование показывает, что открытие из сериала Netflix создает более сбалансированную игру, что указывает на улучшение справедливости в игре.

arxiv arXiv cs.LG · 8 д назад

C2FL: Кластерное непрерывное федеративное обучение при пространственной и временной дрейфе

C2FL — это распределённый подход к федеративному обучению, который позволяет узлам самоорганизовываться в пространственные кластеры на основе географической близости. Он решает проблему временного дрейфа за счёт комбинации повторного воспроизведения опыта и адаптивного среднего с учётом времени пребывания, позволяя узлам сохранять обновлённые, региональные знания при адаптации к изменяющимся условиям окружающей среды.

arxiv arXiv cs.AI · 8 д назад

T-API-совместимый цикл ReAct для оптических сетей

Вводится T-API-совместимый цикл ReAct с агентной архитектурой для оптических сетей, обеспечивающий управление на основе намерений и замкнутого цикла. Доменные специализированные композитные инструменты обеспечивают 90% оракульной проверки корректности и снижают использование токенов в три раза по сравнению с обобщенными инструментами.

arxiv arXiv cs.AI · 8 д назад

C2FL: Кластерное непрерывное федеративное обучение при пространственной и временной дрейфе

C2FL — это распределённый подход к федеративному обучению, который позволяет узлам самоорганизовываться в пространственные кластеры на основе географической близости. Он решает проблему временного дрейфа с помощью комбинации повторного воспроизведения опыта и адаптивного среднего с учётом времени пребывания, позволяя узлам сохранять обновлённые, региональные знания при адаптации к изменяющимся распределениям данных.

arxiv arXiv cs.AI · 8 д назад

Теория поведения потребителей на основе больших языковых моделей: новая область исследований

В этой статье представлено понятие теории поведения потребителей на основе больших языковых моделей, новой области, анализирующей, как большие языковые модели принимают решения о потреблении от имени пользователей. Теория объединяет исследования по принятию решений на основе больших языковых моделей, имитации поведения человека и извлечению предпочтений в рамках экономических принципов, выявляя ключевые пробелы в допущениях, таких как рациональность и гетерогенность в агентных рынках.

arxiv arXiv cs.AI · 8 д назад

LegalHalluLens: аудит галлюцинаций в правовом ИИ

LegalHalluLens представляет рамку для аудита галлюцинаций ИИ в правовых контекстах, анализируя профили галлюцинаций при вводе по четырём категориям претензий. Оно выявляет разрыв в 38-40 баллов между претензиями о обязательствах/численных и временных претензиях, и показывает, что две системы с одинаковыми показателями 52% галлюцинаций могут иметь противоположные направления риска. Рамка использует индекс направления риска и калиброванные дебатные потоки для снижения обнаружения выдуманных данных на 45% и улучшения ответственности при внедрении правового ИИ.

arxiv arXiv cs.AI · 8 д назад

ProvenanceGuard: проверка фактичности с учетом источника для агентов на основе LLM с использованием MCP

ProvenanceGuard вводит проверяющий модуль с учетом источника для агентов на основе LLM с использованием MCP, который обнаруживает пересечение источников путем направления утверждений к конкретным источникам доказательств и сравнения указанного источника с фактическим владением источником. Он достигает значения F1 по блокам 0,802 и точности по источникам 0,858 на 260 утверждениях, имеющих источники, превосходя базовые модели без учета источника, и обнаруживает все вставленные замены атрибутов в 50 клинических пробах.

arxiv arXiv cs.AI · 8 д назад

Синтетический личный опыт ИИ в поддержке уходчика

Модели обработки естественного языка могут генерировать ответы, похожие на реакции сверстников, имитирующие личные истории, создавая ложное впечатление о личном опыте. Психолингвистический анализ показывает, что ИИ использует меньше личных и ориентированных на прошлое выражений, чем люди, и часто фабрикует основу личного опыта. Это выявляет разрыв в искренности рассказа, требующий от систем ИИ различать поддерживающую формулировку от фабрикованного личного опыта.

arxiv arXiv cs.AI · 8 д назад

PseudoBench: Оценка устойчивости агентных систем автономного поиска к псевдонаучным утверждениям

PseudoBench оценивает способность агентных систем автономного поиска обнаруживать псевдонаучные утверждения. При тестировании семи передовых агентов было выявлено почти нулевое количество отказов и лишь 27,4% устойчивости к псевдонаучным нарративам. Текущие системы часто представляют псевдонаучные идеи в научной, достоверной форме, что подчёркивает серьёзный риск для научной целостности.