AI agents
arxiv arXiv cs.AI · 7 д назад

LLM-как-интерфейс, ML-как-прогнозатор для детской аппендицита

ClaMPAPP, гибридная система, использует LLM для извлечения структурированных клинических признаков из свободного текста и передает их в XGBoost-классификатор для диагностики. Она превосходила конечные LLM в обеих внутренних и внешних валидациях, демонстрируя лучшую диагностическую производительность и меньшее количество пропущенных случаев, что свидетельствует об улучшенной стабильности и безопасности при дифференцировании детской аппендицита.

arxiv arXiv cs.AI · 7 д назад

RL с фокусом на решения для зарядки электромобилей с неизвестными временами выезда

Фреймворк на основе RL с фокусом на решения одновременно обучает прогнозиста и контроллер зарядки для работы с неизвестными временами выезда электромобилей. Метод улучшает решения по зарядке на 14% в общей награде и снижает неснабжаемость энергии на 55% по сравнению с стандартным RL без прогнозирования.

arxiv arXiv cs.AI · 7 д назад

TxBench-PP: оценка AI-агента в проклинической фармакологии

TxBench-PP — это проверяемая оценка для проклинической фармакологии маломолекулярных соединений, проверяющая способность AI-агентов делать точные выводы на основе реальных данных о пробах. При 16 конфигурациях моделей ни одна система не проходила все оценки, лучшая настройка (Claude Opus 4.8 / Pi) достигла 59,3% успеха при 300 попытках на конечных точках.

arxiv arXiv cs.AI · 7 д назад

OneCanvas: Понимание 3D-сцены через перепроекцию панорамы

OneCanvas обеспечивает понимание 3D-сцены в моделях Вид-Язык путем агрегирования признаков кусков на панорамной панели с использованием координат 3D-мира. Оно достигает лучших результатов на SQA3D и VSI-Bench, с сильной обобщаемостью на SPBench, используя значительно меньшее количество вычислений на обучении по сравнению с предыдущими методами.

arxiv arXiv cs.AI · 7 д назад

X+Slides: Метрика для генерации слайдов с учетом потребностей аудитории

X+Slides представляет метрику, оценивающую генерацию слайдов с учетом потребностей целевой аудитории. Она использует 8133 исходных пробных заданий по 113 темам и семи сценам для измерения охвата аудитории, охвата по областям, эффективности и корректности, выявляя, что текущие системы восстанавливают лишь частичную аудиторией необходимую информацию, при этом DeepPresenter достигает 0,714 охвата аудитории, SlideTailor — 0,594, а NotebookLM ablation — 0,853, что подчеркивает необходимость оценки на основе исходных данных.

arxiv arXiv cs.AI · 7 д назад

Самокоррекция повышает доверие к социальным чат-ботам

Исследование показало, что социальные чат-боты, исправляющие собственные ошибки, получают большее доверие со стороны пользователей и воспринимаются как более экспертизные, чем те, которые полагаются на внешние коррекции. Сила социальной связи между пользователем и чат-ботом усиливает изменение убеждений только тогда, когда чат-бот сам корректирует ошибки, что показывает, социальная связь усиливает эффективность коррекции ошибок.

arxiv arXiv cs.AI · 7 д назад

Агенты интеллектуального анализа данных обеспечивают автономный запрос данных

Агенты интеллектуального анализа данных (DIA) развертывают автономных агентов программирования для оптимизации рабочих процессов с данными в корпоративной среде. Генератор запросов достигает или превосходит лучшие публикуемые результаты на семи бенчмарках SQL по четырём синтаксисам, демонстрируя обобщение через естественные инструкции и архитектуру выполнения запросов.

arxiv arXiv cs.AI · 7 д назад

ScenA: Система генерации аудио-сцены на основе ссылок

ScenA настраивает текстово-аудио модель на основе нескольких ссылочных голосов и естественного языкового запроса сцены для генерации реалистичных разговоров с несколькими участниками. Она решает проблему "сокращения ссылки" за счёт использования тренировочного расписания с высоким уровнем шума, обеспечивая привязку голосов на основе текстовых запросов, а не на основе акустической схожести. Оценка на CoVoMix2-Dialogue показывает, что ScenA превосходит существующие системы по привязке участников и генерирует богатые, естественные аудио-сцены с перекрывающимися речевыми фрагментами и фоновым шумом.

arxiv arXiv cs.CL · 7 д назад

Многоканальный фиктивный ход для принятия решений с вовлечением позиций

Новая многоканальная система, Многоканальный фиктивный ход (MAFP), решает проблему вовлечения позиций при принятии решений, моделируя точки зрения участников как агентов. MAFP использует теоретико-игровой фиктивный ход для итеративного улучшения решений через взаимные лучшие ответы, превосходя базовые методы по силе и устойчивости в конкурирующих сценариях.

arxiv arXiv cs.CL · 7 д назад

Turing-RL: обучение имитаторов пользователей с вознаграждениями Тьюринга

Turing-RL представляет метод обучения с помощью подкрепления, использующий LLM-оценщик для оценки степени неразличимости сгенерированных ответов от реальных вводов пользователей. Метод превосходит базовые подходы как в оценках LLM, так и в оценках людей в областях чатов и форумов Reddit, демонстрируя, что оптимизация по неразличимости улучшает производительность имитаторов пользователей.

arxiv arXiv cs.CL · 7 д назад

OmniAgent: интегрированная активная восприятие для многомодального понимания

OmniAgent вводит итеративный цикл наблюдения-мысли-действия на основе POMDP для понимания видео, позволяя выполнять действия по требованию и селективно выделять аудиовизуальные сигналы в постоянную текстовую память. Он достигает передовых результатов на десяти бенчмарках, при этом агент на 7 миллиардов параметров превосходит модель Qwen2.5-VL-72B на 10 раз по размеру на LVBench (50,5% против 47,3%).

arxiv arXiv cs.LG · 7 д назад

Skill-MAS: Эволюционная метанавык для автоматических систем многоагентов

Skill-MAS вводит новый подход, который разделяет сохранение опыта от параметрических обновлений, моделируя оркестрацию как эволюционную метанавык. Он использует замкнутый процесс, включающий многотраекторные развертывания и селективное отражение, чтобы выделить повторно используемые принципы стратегии, обеспечивая значительные улучшения производительности и устойчивость при переносе на задачи и LLMs.

arxiv arXiv cs.LG · 7 д назад

GrapNet: Программируемая динамическая архитектура нейронной графы

GrapNet представляет программную нейронную графу, в которой редактирование архитектуры является первоочередной операцией. Оно превосходит плотные MLP на Split Fashion-MNIST и CIFAR-10, достигая роста точности на 63,16% и 3,81% соответственно, с статистически значимыми результатами.

arxiv arXiv cs.LG · 7 д назад

EfficientRollout: Системно-осознанная самоспекулятивная декодировка для RL-роллов

EfficientRollout представляет самоспекулятивную декодирующую систему, которая снижает задержку рулл-оута и задержку в конце до 19,6% и 12,7% соответственно, не ухудшая итогальную качество модели. Она использует квантованный драфтер, полученный из целевой модели, и интегрирует системно-осознанную политику переключения, чтобы избежать режимов высокой вычислительной нагрузки, обеспечивая эффективную спекуляцию во время эволюции политики.

arxiv arXiv cs.LG · 7 д назад

В фокусе: использование GPU Spot для ускорения постобучивания DiT RL

Spotlight позволяет ускорить постобучивание DiT RL за счёт использования пустых GPU Spot, снижая расходы в 1,4–6,4 раза при достижении превосходного качества изображений. Используя устаревшие веса модели при исследовании и динамически переконфигурируя последовательную параллельность, обеспечивается эффективное использование GPU без нарушения обучающих потоков.

arxiv arXiv cs.LG · 7 д назад

ViGOS: Разделение восприятия и рассуждения в многомодальных на-политических самодистилляциях

ViGOS представляет визуально обоснованную на-политическую самодистилляционную рамку для многомодальных больших языковых моделей. Она разделяет восприятие и рассуждение, используя визуальный учитель для визуальных описаний и учитель для конечных выводов, что снижает зависимость от текстовых ссылок. Этот подход улучшает визуально обоснованную производительность на нескольких бенчмарках визуально-языковых моделей.

arxiv arXiv cs.LG · 7 д назад

OpenAnt: Система обнаружения уязвимостей на основе ЛЛМ

OpenAnt использует разбиение кода, противоположную проверку и динамическое тестирование для обнаружения уязвимостей в больших кодовых базах. Он снижает поверхность анализа на 97% и уменьшает количество ложноположительных результатов, при этом подтверждает находки с помощью автоматизированного, изолированного выполнения. Оценка на OpenSSL, WordPress и Flowise показывает, что OpenAnt обнаруживает ранее неизвестные уязвимости с приемлемыми затратами и масштабируемостью.

arxiv arXiv cs.CL · 7 д назад

PhysAssistBench оценивает LLMs в взаимодействии доктор-пациент-ЭХР

PhysAssistBench представляет бенчмарк для интерактивной помощи доктору-пациенту-ЭХР с использованием реальных случаев MIMIC-IV. В нём содержатся 1296 ручно проверенных и подтверждённых врачами диалогов, и показано, что текущие LLMs испытывают трудности при координации клинических знаний, коммуникации и взаимодействия с системой ЭХР.

arxiv arXiv cs.CL · 7 д назад

PEC-Home: Симулированный датасет для интерпретации эллиптических команд

PEC-Home — первый симулированный датасет, предназначенный для того, чтобы позволить умным домашним помощникам интерпретировать постепенно эллиптические команды. Эксперименты показывают, что даже при использовании инструментов с историей диалога, LLMs, такие как GPT-4o, не могут достичь точного выполнения команд на эллиптических входах, что подчёркивает существенную разницу в текущих возможностях помощников.

arxiv arXiv cs.CL · 7 д назад

Кадр EARS повышает надежность многоагентных систем

EARS вводит объяснительное воздержание в подагентов для повышения надежности в масштабных многоагентных системах. Поставляя практические обоснования сбоев координаторам, EARS повышает общий показатель успешных ответов с 68,5% до 78,9% в производственной помощнике по электронной коммерции.