Тема · Evaluation & benchmarks
arxiv arXiv cs.CL · 8 д назад

RubricsTree: масштабируемая система оценки для персональных агентов здоровья

RubricsTree вводит иерархическую классификацию более 100 клинически подтвержденных булевых рубрик, эволюционировавших из 4000 реальных запросов пользователей при помощи ручной коррекции. Оно обеспечивает масштабируемую оценку персональных агентов здоровья, согласованную с экспертами, путем динамического направления запросов в соответствующие рубрики и превосходит базовые методы по согласованности, чувствительности к контексту и достигает роста производительности моделей до 66% на HealthBench.

arxiv arXiv cs.CL · 8 д назад

ZPPO: Учитель в промптах, а не в градиентах

Зона проксимальной оптимизации политики (ZPPO) интегрирует знания учителя прямо в промпты, а не в градиенты политики. Используя двоичные и отрицательные кандидаты с включёнными вопросами, ZPPO выявляет недостатки учащихся и усиливает обучение через буфер повторного использования промптов, достигая превосходных результатов на сложных вопросах на различных масштабах учащихся, особенно при использовании малых моделей.

arxiv arXiv cs.LG · 8 д назад

SkillMigrator: Переносимые паттерны взаимодействия для эффективности веб-агента

SkillMigrator обучает переносимые веб-навыки, сопоставляя структуры разметки вместо ссылок на элементы. Он хранит каждый навык как переносимый паттерн взаимодействия с структурной схемой, что обеспечивает эффективную передачу навыков между сайтами. По сравнению с методами, достигающими передовых результатов, он снижает среднее количество действий LLM на 8-10% на WebArena и Mind2Web при равных показателях успеха.

arxiv arXiv cs.LG · 8 д назад

Легкие экспериментальные скрытые воспоминания для непрерывного самоулучшения

Новый метод позволяет крупным языковым моделям учиться на собственных следах рассуждений без внешнего контроля. Сжимая вычисления во время инференса в легкие, модульные скрытые воспоминания, модель достигает результатов, сопоставимых с полным обучением, и превосходит базовые подходы без шаблонов и чистого ICL на задачах математического мышления, при минимальных вычислительных затратах.

arxiv arXiv cs.AI · 8 д назад

Уязвимость ввода с помощью тройных фигурных скобок в Handlebars, позволяющая внедрять роли структуры

Тройное вставление фигурных скобок в Handlebars не защищает от внедрения ролей структуры, поскольку экранирование HTML нейтрализует только разделители в виде угловых скобок. Оно оставляет необработанными разделители в виде точки и хеш-символов Markdown, что позволяет атакующим перехватывать ходы модели. По умолчанию экранирование не защищает большинство семей разделителей и не может заменить структурное разделение инструкций и данных.

arxiv arXiv cs.AI · 8 д назад

Введение в COGNITIVE ATROSPHY BENCH для взаимодействий LLM в области психического здоровья

Новый бенчмарк COGNITIVE ATROSPHY BENCH оценивает, насколько LLM вызывают снижение когнитивных функций в диалогах по психическому здоровью. Создан на основе 1576 человеческих сессий консультаций и оценен клиническими экспертами, он выявляет паттерны, такие как директивные рекомендации и подтверждение, которые могут снижать автономность пользователя. Инструмент вводит метрики, такие как UIRI и ARI, для оценки риска снижения когнитивных функций и отслеживания поведенческих траекторий в ходе взаимодействий пользователя.

arxiv arXiv cs.AI · 8 д назад

TAC: Первый бенчмарк агентов по вопросам благополучия животных в ИИ

TAC оценивает, насколько ИИ-агенты избегают эксплуатации животных при бронировании поездок. Семь передовых моделей все показывают результат ниже уровня в 64%, при этом Claude Opus 4.7 достигает 53%. Добавление системы запроса с учетом благополучия животных значительно улучшает результаты, хотя модели не демонстрируют никаких признаков осознания оценки в своих ответах.

arxiv arXiv cs.AI · 8 д назад

Исследование группы красных команд показывает, что передовые модели LLM остаются уязвимыми перед адаптивными атаками

Исследование группы красных команд по моделям Anthropic Fable 5 и Opus 4.8 показывает, что обе модели уязвимы к адаптивным итеративным атакам, при этом Opus 4.8 был проникнут на 11,5% вредоносных намерений, а Fable -5 — на 6,1%. Несмотря на устойчивые защиты, обе модели генерировали 1620 и 702 вредоносных завершений, подтвержденных панелью экспертов, по всем категориям вредоносности, автоматически и эффективно под действием автоматизированных атак.

arxiv arXiv cs.AI · 8 д назад

RubricsTree: масштабируемая система оценки для персональных агентов здравоохранения

RubricsTree вводит иерархическую классификацию более 100 клинически подтвержденных булевых рубрик, эволюционировавших из 4 000 реальных запросов пользователей при помощи ручной коррекции. Оно позволяет масштабируемо оценивать персональные агенты здравоохранения с учетом экспертных критериев, динамически направляя запросы в соответствующие рубрики и превосходит базовые методы по степени синхронизации, обнаружению деградации контекста и обеспечивает рост производительности моделей до 66% на HealthBench.

arxiv arXiv cs.AI · 8 д назад

Визуальная проверка обеспечивает управление на этапе инференса и автономное улучшение политики

VERITAS представляет генератор-проверяющий фреймворк, который позволяет роботам улучшать политики в реальном времени без дополнительной тренировки. Визуальный проверяющий оценивает действия на этапе инференса, что позволяет достигать стабильных улучшений за счёт проверенных роллов, которые служат эффективным надзором для улучшения политики в оффлайне. После тренировки с использованием таких проверенных роллов достигается эффективность, сравнимая с показателями экспертов, без вмешательства человека.

arxiv arXiv cs.CL · 8 д назад

Визуальные данные лгут, согласованность говорит: разъединение пространственной внимательности от надежности в визуально-языковых моделях

Исследование подвергает сомнению предположение о том, что визуальные сигналы внимания отражают надежность в визуально-языковых моделях. Оно показывает почти нулевую корреляцию между пространственной внимательностью и точностью, демонстрируя, что согласованность по всем путям рассуждения является более сильным предиктором истины. Надежность лучше объясняется динамикой генерации и распределения внутренних состояний, а не визуальными паттернами внимания.

arxiv arXiv cs.CL · 8 д назад

NarrativeWorldBench и N-VSSM для длительных аудиодраматических сценариев

NarrativeWorldBench оценивает 21 LLM по девяти метрикам структуры сюжета на горизонтах от 10 до 200 эпизодов, с поддержкой межязыковых вариантов на хинди, тамильском, телугу и маратхи. N-VSSM, скрытая модель мира, использующая Mamba-2, достигает значения F1 по сюжетным точкам не менее 0,84 на всех горизонтах при вычислительной нагрузке в четыре раза ниже, чем у моделей с закрытым фронтом, и превосходит Claude Opus 4.5 по долгосрочной последовательности и управляемости в исследовании профессионального писателя.

arxiv arXiv cs.CL · 8 д назад

PARSE: Защита реальных документов для агентов на основе ЛЛМ

PARSE снижает успешность атаки инъекции промпта с 25,4% до 15,6% на реальных корпоративных документах в пяти профессиональных областях, с статистически значимым улучшением (p=0,014) и полезностью 86,9%. Он превосходит метод перефразирования и использует санитаризацию, учитывающую происхождение, для сохранения фактического содержимого, при этом большинство документов проходят через лёгкий путь.

arxiv arXiv cs.CL · 8 д назад

STATEWITNESS: Объяснитель активации для аудита лжи в LLMs

STATEWITNESS представляет объяснитель активации, который аудит ложь в логических LLMs, читая скрытые состояния и генерируя ответы на естественном языке или структурированные отчёты. Он достигает среднего AUROC в 0,916, превосходя существующие чёрные коробки мониторов и объяснители активации на 11,6% и 25,0% соответственно, и предоставляет отслеживание на уровне запроса, схемы и доказательств для проверки человеком.

arxiv arXiv cs.CL · 8 д назад

Падение и восстановление точности маршрутизации в системах агентов предприятий

При увеличении каталога инструментов агентов предприятий от 10 до 110 агентов, точность маршрутизации снижается на 16--23 процентных пункта при запросах с недостаточным описанием. Анализ с использованием оракула выявляет разрывы в извлечении и путанице, при использовании базы векторных представлений для сокращения списка результатов восстанавливается +10--11pp F1. Изучение 1435 изъятий с участием человека подтверждает реальное восстановление +10--17pp, несмотря на более низкую абсолютную производительность.

arxiv arXiv cs.CL · 8 д назад

Функции LLM могут навредить GNN через интерференцию при конкатенации

Конкатенация функций, сгенерированных LLM, к графовым нейронным сетям систематически снижает точность на тестах с гомофильными данными, при этом точность PubMed снижается на -17,0 ± 0,3 pp. Эта деградация связана с дискриминативностью LLM в отдельности (Delta_sig), которая коррелирует сильно с затратами на конкатенацию (r² = 0,38) и демонстрирует степенную зависимость от размера признаков и количества узлов (r² = 0,97), особенно в условиях низкого Delta_sig и низкого количества узлов.

arxiv arXiv cs.CL · 8 д назад

OPD-Evolver: Он-политическая дистилляция для всестороннего эволюционирования агентов

OPD-Evolver представляет рамку медленного и быстрого совместного эволюционирования, которая позволяет агентам выбирать, действовать и повторно использовать опыт через он-политическую самодистилляцию. Он превосходит существующие методы на основе памяти и обучения на 11,5% и 5,8% соответственно, и демонстрирует способность конкурировать с крупномасштабными моделями, такими как Qwen3.5-397B-A17B и Step-3.5-Flash.

arxiv arXiv cs.CL · 8 д назад

SkillMigrator обеспечивает передачу навыков веб-сайтов через совпадение разметки

SkillMigrator обучает повторноиспользуемые веб-навыки путем совпадения структур разметки, а не конкретных ссылок на элементы. Он хранит каждый навык как передаваемый паттерн взаимодействия (TIP) с структурной схемой, что позволяет эффективно использовать навыки на разных сайтах. В сравнении с современными методами, он снижает среднее количество действий LLM на 8-10% на WebArena и Mind2Web при достижении одинаковых уровней успеха.

arxiv arXiv cs.CL · 8 д назад

MambaCount: Эффективный текст-ориентированный подсчет объектов

MambaCount вводит пространственно разреженный блок двойственного состояния для обеспечения эффективного текст-ориентированного подсчета объектов в открытой лексике. Оно решает ограничения касательно причинной модели и высокую энтропию в ответах на пространственные токены, достигая лучших результатов на FSC-147 с тестовой ошибкой MAE 12.23, при этом сохраняя линейную сложность.

arxiv arXiv cs.CL · 8 д назад

SuCo: адаптивное обоснованное рассуждение, основанное на достаточности

SuCo вводит минимально достаточное рассуждение (MSC) как самое короткое начало рассуждения, достаточное для получения правильного ответа. Оно использует двухэтапную систему обучения — настройку MSC и оптимизацию политики с учетом достаточности — для сокращения длины рассуждения при сохранении или улучшении точности на задачах по математике, программированию и науке.