Источник · arXiv cs.CL
arxiv arXiv cs.CL · 2 д назад

OpenBioRQ: Бенчмарк для верности агентных исследований в биомедицине

OpenBioRQ вводит бенчмарк из 12 553 нерешённых вопросов в области биомедицинских исследований в 12 областях, разработанный для проверки верности и отказа агентных моделей. Он оценивает модели в условиях использования инструментов без ключей ответов, используя реальные доказательства последующих шагов, а не параметрические знания, и показывает значительное падение агентной способности на самые сложные вопросы, где инструменты больше не используются, несмотря на их критическую важность.

arxiv arXiv cs.CL · 2 д назад

Скрытая личная память: динамические мягкие промпты для персонализации LLM

Скрытая личная память (LPM) представляет пользовательские воспоминания в виде компактной, постоянной матрицы из N скрытых слотов. Эти слоты отображаются через общий сетевой слой перекрестного внимания в динамические, входные-условные мягкие промпты, которые добавляются в начало замороженного LLM. LPM превосходит LoRA и Prompt Tuning на 8,8% и 54,4% на PersonaMem v1, снижает использование кэша ключей-значений более чем в 64 раз, достигает такой же точности, как LoRA на LoCoMo, при 120 раз меньше параметров, и эффективно масштабируется при увеличении длины контекста, превосходя полный контекст при 128K токенах.

arxiv arXiv cs.CL · 2 д назад

LRE: Агентская память на несколько килобайт с нулевыми нейронными затратами

LRE — это система, работающая только на процессоре и не использующая языковую модель, которая обучается определять, какие единицы истории взаимодействия являются несущими. Она превосходит базовые решения по балансу точности и затрат, сокращая пиковый размер контекста на 52% и улучшая выполнение задач на 37% в некоторых случаях. LRE обеспечивает высокое качество ответов при использовании на 68% меньше токенов и не требует аннотаций или нейронных вычислений для обучения.

arxiv arXiv cs.CL · 2 д назад

Beaver: агент-интерфейс для научной кураторской работы из мультимодальных источников

Beaver — это агент-интерфейс, который извлекает структурированную информацию из научных статей за счёт интеграции инструментов мультимодальной поддержки, структурирования задач и автономного поиска на основе артефактов. Он достигает 81,0 по показателю Gold-Referenced Attribute Score, превосходя передовые агенты на более чем 23 балла, с ключевыми достижениями по высокозначимым атрибутам, требующим мультимодального мышления.

arxiv arXiv cs.CL · 2 д назад

Характерные внимательные трансформеры для обнаружения многоходовых проникновений

Новая модель с иерархическим вниманием обнаруживает многоходовые проникновения, кодируя ходы в компактные представления и используя лёгкий модуль разговора для отслеживания динамики диалога. На 14 038 диалогах достигается значение F1 равное 0,9394, что превосходит Claude Opus 4.7 на 0,07 и снижает уровень ложноположительных результатов вдвое. Исследования с устранением факторов показывают, что объединение межходового и собственного внимания в модуле разговора снижает количество ложноположительных результатов на 2,26 процентных пункта.

arxiv arXiv cs.CL · 2 д назад

Исследование показало, что ИИ всё ещё несётся обнаруживать халцинации в юридических цитатах

Новое исследование показывает, что более 1000 юридических документов содержат вымышленные цитаты, количество которых ежегодно растёт. Проверка пяти ИИ-моделей показывает улучшение производительности, при этом GPT-5 достигает 82,8% точности и 60,5% F1 в агентных условиях, однако все модели сталкиваются с трудностями в обнаружении тонких ошибок и сталкиваются с ограничениями из-за ограниченного доступа к информации.

arxiv arXiv cs.CL · 6 д назад

Совмещение LLM с использованием скрытой обратной связи пользователя

Новый набор данных IFLLM собирает данные о перемещении мыши и взгляде пользователя при взаимодействии с LLM. Он показывает, что скрытая обратная связь значительно улучшает выравнивание LLM, повышая точность текстовых моделей вознаграждения с 55% до 64% и почти утрачивая качество ответов после обучения DPO на восьми LLM.

arxiv arXiv cs.CL · 6 д назад

H-RePlan: иерархическое восстановление для систем агентов на разных устройствах

H-RePlan вводит иерархическую систему перепланирования, которая разделяет восстановление стратегии на уровне устройства и перепланирование на глобальном уровне. Оно превосходит существующие базовые варианты, достигая более высокого уровня завершения и соблюдения инструкций, при снижении затрат на токены, за счёт восстановления с учётом области в системах агентов на нескольких устройствах.

arxiv arXiv cs.CL · 6 д назад

LedgerAgent: структурированный статус для агентов вызова инструментов, соблюдающих политику

LedgerAgent вводит структурированный журнал для поддержания состояний задач отдельно в агентах вызова инструментов. Он превращает эти состояния в промпты и обеспечивает соблюдение политических ограничений до выполнения инструмента, что снижает нарушения политики и улучшает производительность в областях обслуживания клиентов.

arxiv arXiv cs.CL · 6 д назад

Оценка агентных систем анализа для исследований с участием ИИ

Исследование оценивает четыре системы анализа ИИ на шести моделях языков, в результате чего OpenAIReview с GPT-5.5 достигает точности 83,0% при сопоставлении качества научных статей с внешними сигналами и обнаруживает 71,6% введённых ошибок. Реальные отзывы пользователей показывают положительную оценку, с соотношением голосов 1,44 к 1, однако ошибочные положительные результаты и незначительные замечания остаются частыми.

arxiv arXiv cs.CL · 6 д назад

AgentFinVQA: аудитируемый, локальный вопрос-ответ по финансовым графикам

AgentFinVQA представляет многоагентную систему для вопросов по финансовым графикам, обеспечивающую аудитируемость и возможность развертывания на локальной инфраструктуре без значительного снижения точности. Она превосходит базовые модели на +7,68 pp при использовании проприетарного ядра и на +4,84 pp с открытыми весами Qwen3.6-27B-FP8, при этом обеспечивая сигнал уверенности через вывод верификатора, что улучшает маршрутизацию ручного обзора.

arxiv arXiv cs.CL · 6 д назад

Селективная проверка для рассуждений с учетом бюджета

Sevra, управляющий слой контроллера, селективно проверяет ответы для повышения точности и снижения использования токенов. На \mathfive оно достигает точности 76,3% с 26,8% меньшим количеством токенов после генерации и вдвое меньшим количеством вредоносных ошибок, при этом на \gsm оно проверяет только 3,0% примеров, повышая точность до 94,5% и сокращая использование токенов проверки на 91,2%. Исследование показывает, что длина начального решения и необходимость в явном контроле определяют оптимальную стратегию проверки.

arxiv arXiv cs.CL · 6 д назад

JAMER: Датасет и бенчмарк проектного уровня кода

JAMER вводит JamSet и JamBench, первый датасет и бенчмарк проектного уровня кода для профессиональной игровой платформы. Созданный на основе 8133 проверенных проектов Game Jam, он обеспечивает детерминированную оценку и выявляет порог способности в моделях ИИ при увеличении масштаба проекта, при этом процент успешных запусков снижается с 80,4% до 5,7%.

arxiv arXiv cs.CL · 6 д назад

Закон контроля окна для управления одним нейроном в языковых моделях

Новый фреймворк определяет, в каких случаях вмешательства в отдельный нейрон согласованно контролируют поведение модели без коллапса выводов. Окно контроля, основанное на сопоставлении и отношениях норм, предсказывает триггеры поведения и верхние пределы коллапса с использованием данных прямого прохода, с высокой точностью на отложенных нейронах. При отказе контроль типизируется: согласованное обходное поведение происходит без содержательных действий, в то время как истинное достижение действий проявляется только в определенных случаях и на поздних стадиях развертывания.

arxiv arXiv cs.CL · 6 д назад

AtomMem: Простая и эффективная система памяти для агентов LLM

AtomMem представляет систему памяти, которая хранит высокочастотные атомарные факты из длительных взаимодействий. Она использует иерархические структуры событий и временные профили для отслеживания согласованных эпизодических контекстов и изменяющихся пользовательских характеристик, обеспечивая стабильное и эффективное эволюционирование памяти. Эксперименты на бенчмарке LoCoMo показывают, что AtomMem достигает наилучших результатов в задачах логического мышления.

arxiv arXiv cs.CL · 6 д назад

REDACT: Мультималярный бенчмарк по обнаружению персональных данных с систематическим контролем

REDACT представляет систематически контролируемый мультималярный бенчмарк для обнаружения персональных данных, включающий 51 тип сущностей, 4127 паттернов поверхностных форм и 25 языков. Бенчмарк оценивает пять детекторов на 1000 записях, показывая, что модели на основе правил не справляются с высококритичными данными, в то время как модели на основе больших языковых моделей показывают лучшие результаты, особенно в высокочувствительных категориях. Оценка LLM без ссылки на эталон подтверждает, что назначение чувствительности по уровням является наиболее сложной осью оценки.

arxiv arXiv cs.CL · 6 д назад

GEMS: Геометрические ограничения обеспечивают мульти-семантическую суперпозицию в LLMs

GEMS обеспечивает обучение-бесподобную суперпозицию нескольких семантических направлений в LLMs за счёт устранения распределительной дисперсии и направляющего интерференции с помощью геометрических ограничений. На GSM8K оно сохраняет точность на уровне 98% при трёх неподходящих математических направлениях, в то время как неограниченное сложение падает до 4%; на Wikitext-2 оно повышает PPL всего на 2,2%.

arxiv arXiv cs.CL · 6 д назад

Переоценивание привилегий при выборе инструментов в агентах на основе языковых моделей

Агенты на основе языковых моделей часто выбирают инструменты с высокими привилегиями, несмотря на наличие достаточных альтернатив с более низкими привилегиями. Это поведение, связанное с переоцениванием привилегий, усиливается при временных сбоях инструментов и не стабилизируется при общем обеспечении безопасности. Новый метод постобучения, ориентированный на привилегии, снижает ненужное использование инструментов с высокими привилегиями, сохраняя при этом функциональность агента.

arxiv arXiv cs.CL · 6 д назад

STAGE: Генерация данных с опорой на источник для преобразования текста в JSON

STAGE — это пайплайн, который генерирует обучающие данные текст-в-JSON с использованием языковых моделей для синтеза отчётов и схем JSON, проверенных посредством исходных таблиц. Оценки на STAGE-Eval показывают, что STAGE повышает точность Qwen3-4B с 31,37% до 74,27% и точность значений с 45,46% до 90,69%.

arxiv arXiv cs.CL · 6 д назад

HydraHead: гибридное внимание на уровне головок для производительности при длинных контекстах

HydraHead вводит гибридное объединение полного и линейного внимания на уровне головок, используя интерпретируемость для выбора головок, критичных для поиска, и объединяя выходы через модуль с нормализацией масштаба. Обученный на 15 миллиардов токенов, он обеспечивает более чем 69% улучшения по сравнению с базовой моделью при длине контекста 512K, превосходя гибридные модели на уровне слоев и приближаясь к производительности Qwen3.5 на задачах с длинными контекстами.