AI agents
arxiv arXiv cs.AI · 8 д назад

Кадровая ИИ-архитектура снижает ошибки диагностики в здравоохранении

Мультиагентная ИИ-архитектура решает проблему преждевременного передачи диагностики и тихих галлюцинаций в здравоохранении за счет обеспечения структурированного выполнения клинических протоколов и квантификации эпистемической неопределенности. Оценки на 150 симулированных случаях показывают точность диагностики в 49,3%, что на 11,3 процентных пункта превышает базовую величину, при этом наблюдается статистически значимая отрицательная корреляция между полнотой OLDCARTS и диагностической неопределенностью.

arxiv arXiv cs.AI · 8 д назад

EAGG: Генерация захвата с учетом корпуса через геометрически осознанные графы условий

EAGG представляет генератор захвата, который выравнивает структуру корпуса в общем модели с использованием топологически осознанных графов и геометрически осознанных токенов. Он достигает среднего успеха захвата в 56,17% на MultiGripperGrasp, что соответствует специализированным моделям с погрешностью в 1,10 процентных пунктах, и снижает медианное расстояние контакта с 0,239 см до 0,189 см.

arxiv arXiv cs.AI · 8 д назад

ALERCЕ запускает систему текст-в-СУЛЬ с использованием больших языковых моделей

Астрономическая база данных ALeRCE представляет систему текст-в-СУЛЬ, использующую большие языковые модели, позволяющую генерировать исполняемые запросы SQL на естественном языке. Система была оценена на 110 парах естественного языка и SQL, и использует пошаговый подход, превосходящий базовые модели с прямым выводом. Модель Claude Opus 4.6 достигает высокой точности при выполнении простых запросов и показывает лучшую общую производительность среди всех оцененных моделей.

arxiv arXiv cs.AI · 8 д назад

Уязвимость ввода с помощью тройных фигурных скобок в Handlebars, позволяющая внедрять роли структуры

Тройное вставление фигурных скобок в Handlebars не защищает от внедрения ролей структуры, поскольку экранирование HTML нейтрализует только разделители в виде угловых скобок. Оно оставляет необработанными разделители в виде точки и хеш-символов Markdown, что позволяет атакующим перехватывать ходы модели. По умолчанию экранирование не защищает большинство семей разделителей и не может заменить структурное разделение инструкций и данных.

arxiv arXiv cs.AI · 8 д назад

Переиспользование метакnowledge в обучении с усилением

Новый фреймворк обучает уровень задач на упрощенном агенте и передает полученные знания на гетерогенные агенты. Он использует байесовские не-параметрические предпосылки и высокий уровень политики для генерации руководства по задачам, при этом применяет интерфейс семантической величины и временной адаптер для синхронизации метакnowledge с контроллерами, специфичными для воплощения. Эксперименты показывают снижение ошибки отслеживания на последнем шаге от 94,75% до 99,79% и сопоставимую производительность при использовании 23,8% данных взаимодействия по сравнению с методами передовых технологий.

arxiv arXiv cs.AI · 8 д назад

TAC: Первый бенчмарк агентов по вопросам благополучия животных в ИИ

TAC оценивает, насколько ИИ-агенты избегают эксплуатации животных при бронировании поездок. Семь передовых моделей все показывают результат ниже уровня в 64%, при этом Claude Opus 4.7 достигает 53%. Добавление системы запроса с учетом благополучия животных значительно улучшает результаты, хотя модели не демонстрируют никаких признаков осознания оценки в своих ответах.

arxiv arXiv cs.AI · 8 д назад

Продолжительность работы флеш-памяти как износа капитала в памяти робота

Продолжительность работы флеш-памяти робота является невозобновляемым активом, который изнашивается при каждом записи. Модель цен с учетом износа вводит теневую цену η, чтобы направлять размещение памяти между ОЗУ, НВМ и облаком, при этом оптимальное направление зависит от ассоциации значения-записи χ. Эмпирические измерения показывают, что χ положительна при долгосрочных манипуляциях, равна нулю при коротких задачах и отрицательна при телеманипуляции, и бюджет износа является ограничивающим только для низкокачественных памятей QLC/eMMC, где управление с учетом износа влияет на направление, основываясь на значении задачи, без улучшения производительности.

arxiv arXiv cs.AI · 8 д назад

WEQA: Вопросы о здоровье в носимых устройствах с адаптивным запросом агентской логики

WEQA представляет агентскую архитектуру, адаптирующую запросы, которая объединяет языковые модели с специализированными инструментами анализа данных в носимых устройствах. Она превосходит базовые модели LLM и агентов по точности на 24% и демонстрирует улучшенную полезность и клиническую надежность в экспертизных и пользовательских оценках.

arxiv arXiv cs.AI · 8 д назад

LEADS: агентское открытие гибридных моделей для кардиальной электрофизиологии

LEADS предлагает рамку, использующую агента LLM для открытия гибридных моделей кардиальной электрофизиологии через итеративный цикл рассуждения и действий. Он формулирует доменную знания как структурированное пространство действий, что позволяет создавать физически обоснованные, интерпретируемые и численно стабильные модели, превосходя как человечески спроектированные, так и другие подходы на основе LLM на синтетических и реальных кардиальных данных.

arxiv arXiv cs.AI · 8 д назад

ReAge3D: Реалистичное 3D-преобразование возраста лиц с сохранением видов

ReAge3D представляет рамку для реалистичного и сохраняющего идентичность 3D преобразования возраста лиц. Оно использует 2D модель диффузии и центр-на-внешнюю редактирование для обеспечения согласованности во всех видах, сохраняя мелкие детали, связанные с возрастом, через маскированную диффузию и реконструкцию вида.

arxiv arXiv cs.AI · 8 д назад

Сигналы Оракла в коде тестов, написанном агентами

Эмпирическое исследование 86 156 поправок на тестовые файлы из 33 596 запросов на внесение изменений, созданных агентами, показывает, что 80,2% поправок на тестовые файлы содержат слабые или отсутствующие явные сигналы оракла. Тестовые файлы с сильным ораклом значительно повышают вероятность слияния (OR = 1,28, p < 0,001) после корректировки на множество факторов, что указывает на то, что присутствие тестового файла в отдельности переоценивает степень верификации.

arxiv arXiv cs.AI · 8 д назад

IUU+DB: Система на основе больших языковых моделей для отслеживания незаконной, неотчётной и нерегулируемой рыбалки и преступлений в цепочках поставок

IUU+DB — это система, основанная на больших языковых моделях, которая отслеживает незаконную, неотчётную и нерегулируемую рыбалку, мошенничество в сельском хозяйстве и нарушения труда. Она извлекает ключевые элементы данных из разнообразных документов, классифицирует соответствующие инциденты и позволяет проводить анализ тенденций для выявления географических и поведенческих «горячих точек». Система поддерживает научные исследования, оценку рисков и контроль политики в рыболовстве и цепочках поставок.

arxiv arXiv cs.AI · 8 д назад

DRFLOW: Бенчмарк для предсказания персонализированных рабочих процессов

DRFLOW вводит бенчмарк для оценки способности агентов предсказывать персонализированные рабочие процессы на основе разнородных источников. В нём содержится 100 задач в пяти областях, основанных на 3900 источниках и включающих 1246 ссылок на рабочие процессы. DRFLOW-Agent достигает улучшения F1 до 10,02% по сравнению с базовыми моделями, однако остаются значительные трудности в точном предсказании рабочих процессов.

arxiv arXiv cs.AI · 8 д назад

Исследование группы красных команд показывает, что передовые модели LLM остаются уязвимыми перед адаптивными атаками

Исследование группы красных команд по моделям Anthropic Fable 5 и Opus 4.8 показывает, что обе модели уязвимы к адаптивным итеративным атакам, при этом Opus 4.8 был проникнут на 11,5% вредоносных намерений, а Fable -5 — на 6,1%. Несмотря на устойчивые защиты, обе модели генерировали 1620 и 702 вредоносных завершений, подтвержденных панелью экспертов, по всем категориям вредоносности, автоматически и эффективно под действием автоматизированных атак.

arxiv arXiv cs.AI · 8 д назад

Обучение политики красного агента на основе наблюдений для нейросимволических киберагентов

Предлагается метод обучения политики с использованием имитационного обучения для предсказания действий красного агента в частично наблюдаемых киберсредах. Метод обучает политики красного агента на основе наблюдений за сетями и действий защитника, что позволяет нейросимволическим кибер-агентам точно предсказывать атаки и адаптировать защиту в различных симулированных сценариях.

arxiv arXiv cs.AI · 8 д назад

EvolveNav: Саморазвивающаяся память для навигации без обучения

EvolveNav представляет саморазвивающуюся архитектуру для навигации без обучения объекта-цели, которая улучшается в процессе тестирования. Используя правило памяти, полученное из предыдущих траекторий, и стратегию поиска на основе уверенности для выбора эффективных действий, метод снижает избыточное исследование. Метод достигает на 10,1% более высокого показателя успеха по сравнению с существующими базовыми моделями, при меньшем количестве избыточных шагов.

arxiv arXiv cs.AI · 8 д назад

ReproRepo: масштабирование аудитов воспроизводимости с помощью Issue GitHub

ReproRepo представляет масштабируемую архитектуру, использующую Issues GitHub для оценки воспроизводимости научных статей в области машинного обучения. Оно показывает, что агенты на основе языковых моделей, такие как Codex с GPT-5.5, выявляют хотя бы один барьер в 90% пар статей и репозиториев без выполнения кода, хотя точная локализация остаётся сложной задачей.

arxiv arXiv cs.AI · 8 д назад

Визуальная проверка обеспечивает управление на этапе инференса и автономное улучшение политики

VERITAS представляет генератор-проверяющий фреймворк, который позволяет роботам улучшать политики в реальном времени без дополнительной тренировки. Визуальный проверяющий оценивает действия на этапе инференса, что позволяет достигать стабильных улучшений за счёт проверенных роллов, которые служат эффективным надзором для улучшения политики в оффлайне. После тренировки с использованием таких проверенных роллов достигается эффективность, сравнимая с показателями экспертов, без вмешательства человека.

arxiv arXiv cs.CL · 8 д назад

Отрицательная фильтрация токенов для стабильного одноразового обучения RL

Новый подход, называемый отрицательной фильтрацией токенов, обеспечивает стабильное одноразовое обучение RL за счёт предотвращения ложных штрафов на отрицательных образцах. Метод улучшает производительность на агентских задачах по сравнению с групповыми методами RL, при этом соответствует групповым методам по задачам логического мышления.

arxiv arXiv cs.CL · 8 д назад

Явное против скрытого подсказки в LVLMs для отсылки к коммуникации

Два исследования показывают противоречивые результаты по способности LVLMs координировать эффективные отсылки. Явное подсказывание позволяет моделям достигать эффективной коммуникации, но скрытое подсказывание не вызывает этого поведения, что выявляет фундаментальные различия в человеческой-ИИ коммуникации.