AI agents
arxiv arXiv cs.AI · 7 д назад

Xcientist: Внешняя синтезация и проверка исследований в ИИ-исследователях

Xcientist представляет исследовательскую платформу, которая внешнюю синтезацию и делает видимыми процессы мышления в ИИ-исследователях. Она сохраняет отслеживаемые, договорно-управляемые исследовательские артефакты от формулирования проблемы до проверки, решая проблему смещения утверждений и обеспечивая научную ответственность.

arxiv arXiv cs.AI · 7 д назад

BeliefDiffusion: генеративное предсказательное планирование для навигации

BeliefDiffusion объединяет диффузионные модели для многомодальных представлений вероятностей с модельным предсказательным контролем для долгосрочного планирования навигации. Оно превосходит модельные безусловные методы обучения и другие генеративные подходы по успешности навигации и эффективности пути в частично наблюдаемых средах.

arxiv arXiv cs.AI · 7 д назад

Навык-ориентированная дистилляция для агентов интерфейса

SGCD вводит итеративную структуру для улучшения агентов интерфейса, решая пробелы в контроле в отклоненных состояниях. Он извлекает навыки как из успешных, так и из неудачных проходов, используя их для направления продолжения политики, смешанной с экспертными траекториями. На OSWorld-Verified SGCD повышает показатели успеха трех базовых моделей с уровня 30% до более чем 50%.

arxiv arXiv cs.AI · 7 д назад

Разделение поиска от рассуждений в агентах на основе языковых моделей

Разделение поиска для фундаментальной поддержки (DSG) отделяет функциональность поиска от моделей рассуждений, позволяя использовать поисковую поддержку, независимую от поставщика, настраиваемую и повторно используемую. DSG достигает почти естественной точности на SimpleQA с 91% меньшими затратами на поиск и 99,4% частотой попадания в тёплую кэш-память, одновременно снижая задержку на 68% и сохраняя краткие контракты вывода.

arxiv arXiv cs.AI · 7 д назад

RTSGameBench: Бенчмарк для стратегического мышления в играх

RTSGameBench решает ограничения существующих бенчмарков для игр в реальном времени, предлагая разнообразные игровые сценарии, направленную диагностику компетенций и генерацию сценариев, развивающихся самостоятельно. Он оценивает модели визуально-языковых моделей в стратегическом мышлении при неопределённости, показывая, что самые передовые модели сталкиваются с трудностями при координации нескольких агентов и выполнении масштабных задач.

arxiv arXiv cs.AI · 7 д назад

CAPRA: Многоагентная система LLM для обратной связи по архитектуре программного обеспечения

CAPRA — это многоагентная система LLM, которая генерирует персонализированную, шаблонную обратную связь на LaTeX по доставляемым архитектурным материалам. Она использует специализированные агенты, PyMuPDF и gpt-4o для извлечения и анализа текста и диаграмм UML, при этом обеспечивается надежность за счёт фиксации доказательств и управления согласованностью. Предварительная оценка 10 отчётов студентов показала, что CAPRA выполнил 88,8% из восьми критериев и достиг среднего уровня согласия между оценщиками (kappa = 0,582), при этом каждый отчёт обрабатывался менее чем за 4 минуты.

arxiv arXiv cs.AI · 7 д назад

ThinkDeception: Интерпретируемая многомодальная система обнаружения лжи

ThinkDeception представляет прогрессивную систему обучения с усилением, позволяющую проводить интерпретируемое обнаружение лжи на основе нескольких модальностей. Она использует аннотированный пошаговый датасет Chain of Thought и предлагает метод оптимизации политики групп относительной визуальной-аудиальной согласованности с динамическим куррикулом, повышающий качество рассуждений и превосходящую существующие методы на основных бенчмарках.

arxiv arXiv cs.AI · 8 д назад

TRAP: Бенчмарк для выполнения задач и устойчивости к активному извлечению приватной информации

TRAP оценивает, насколько хорошо модели выполняют задачи с использованием приватных данных без их утечки. При анализе 22 моделей все показывают не тривиальную утечку приватной информации, причем способность следовать инструкциям связана с более высокой утечкой. Структурная изоляция приватных полей предотвращает утечку, заменяя приватные поля на хеш-ключи, сохраняя точность выполнения задач без ущерба для приватности.

arxiv arXiv cs.AI · 8 д назад

Фокус: Использование GPU Spot для ускорения постобучивания DiT RL

Фокус позволяет осуществлять постобучивание DiT RL за счёт использования пустых GPU Spot, снижая расходы на 1,4–6,4 раза при достижении превосходного качества изображений. Оно использует устаревшие веса модели при исследовании и динамически перестраивает последовательную параллельность в реальном времени, обеспечивая эффективное использование GPU без нарушения обучающих цепочек.

arxiv arXiv cs.AI · 8 д назад

РОДС: Награда-ориентированное онлайн-синтезирование данных для агентов с многократным использованием инструментов

РОДС решает проблему истощения образцов в многократном использовании инструментов в RL с помощью вариации вознаграждения для обнаружения границ способностей. Он синтезирует новые данные в реальном времени, соответствующие структурной сложности образцов на границах, и поддерживает динамический буфер повторного использования, который эволюционирует вместе с политикой. РОДС достигает производительности, сравнимой с 17-тысячным офлайн-пайплайном, при 20 раз меньшем количестве траекторий.

arxiv arXiv cs.AI · 8 д назад

ARIADNE: Агностичное маршрутизация для выбора адаптеров на этапе инференса

ARIADNE обеспечивает динамический, без обучения выбор адаптера на этапе инференса, используя центроиды из векторных представлений данных обучения адаптеров. Он выбирает наиболее подходящий адаптер на основе близости в латентном пространстве, не требуя доступа к внутренним структурам адаптеров или дополнительного обучения, и достигает средней точности выбора 89,7% по 44 задачам в области NLP.

arxiv arXiv cs.AI · 8 д назад

Ведение как координационный контроль в многоагентных командах на основе LLM

Исследование показало, что стили ведения в многоагентных командах на основе LLM улучшают производительность только тогда, когда начальное согласие нестабильно, восстанавливаемо и не корректируется самопроизвольными взаимодействиями. Координационный контроль на уровне процесса приносит ценность только при определённых условиях, предсказанных теорией команд, и не существует одного стиля ведения, который бы превосходил другие по точности при выполнении различных задач и моделей.

arxiv arXiv cs.AI · 8 д назад

К веб-среде, ориентированной на агентов: перестройка веба для искусственных интеллект-агентов

Новая статья предлагает фундаментальную перестройку веба с приоритетом доступа для искусственных интеллект-агентов, подвергая сомнению устоявшуюся предпосылку о том, что люди являются основными пользователями веба. В ней представлены реформы в области доступа, экономики и содержания — включая HTTP-заголовки, идентифицирующие агентов, подписки на основе намерений и криптографическую систему происхождения — для обеспечения участия искусственных интеллект-агентов как первоклассных участников, при этом в архитектуре встроены элементы надзора и ответственности человека.

arxiv arXiv cs.AI · 8 д назад

Техническая классификация протоколов коммуникации агентов на основе ЛЛМ

Новая классификация классифицирует протоколы коммуникации агентов на основе ЛЛМ по пяти измерениям: сопряжённый субъект, нагрузка, состояние взаимодействия, механизм обнаружения и гибкость схемы. Анализ показывает, что гибридные нагрузки, сохранение состояния сессии и переговоры о схеме во время выполнения являются распространенными, в то время как децентрализованное обнаружение остаётся редким. Исследование прогнозирует краткосрочную тенденцию к унификации протоколов агент-к-агенту и агент-к-контексту, и долгосрочное развитие в сторону распределённой, многоуровневой стека протоколов.

arxiv arXiv cs.AI · 8 д назад

Кадровая рамка совместного эволюционного развития человека и ИИ раскрывает появление социальной интеллектуальности

Фреймворк динамик совместного эволюционного развития человека и ИИ (HACD-H) вводит единую модель для длительного взаимодействия человека и ИИ, интегрируя эмоциональную адаптацию, память и личность в саморегулирующуюся систему. Результаты показывают, что социальная интеллектуальность возникает в результате совместного эволюционного развития, при этом наблюдается значительная отрицательная корреляция между социальной интеллектуальностью и социальной когнитивной энергией (r = -0,391, p < 0,001), а также прогрессивное снижение энергии со временем.

arxiv arXiv cs.AI · 8 д назад

AdsMind: физически обоснованная многопользовательская система для открытия адсорбции

AdsMind — это замкнутый цикл многопользовательской системы, использующей машинное обучение с силовыми полями и обратную связь для исправления ошибок в поиске конфигураций адсорбции на катализаторах. Система достигает успеха на 100% и 98,8% на тестах AA20 и OCD-GMAE62, снижает разброс энергии в 14 раз по сравнению с базовыми моделями и сохраняет правильные знаки энергии адсорбции при проверке с помощью DFT, превосходя открытые циклы агентов на основе LLM.

media r/LocalLLaMA · 8 д назад

Лучшие модели для видеопамяти 12 ГБ

Пользователь с видеопамятью 12 ГБ на GPU спрашивает о рекомендациях моделей для общих бесед, ролевых игр и программирования. Он предпочитает нецензурные модели для бесед и ролевых игр, и имеет процессор Ryzen 5600 и 32 ГБ ОЗУ.

media r/LocalLLaMA · 8 д назад

Lemonade v10.8 Выпускает автоматическое управление памятью, поддержку облака и инструменты MCP

Lemonade v10.8 вводит динамическое управление памятью VRAM, которое автоматически выгружает неиспользуемые модели и уменьшает кэш KV для освобождения памяти GPU. Вводится поддержка облака для поставщиков, совместимых с OpenAI, что позволяет осуществлять локальное обслуживание моделей с возможностью маршрутизации в облако. Новый веб-интерфейс MCP открывает локальные модели как инструменты через POST /mcp, позволяя использовать локальные модели как инструменты в приложениях, оснащенных MCP.

media r/LocalLLaMA · 8 д назад

Я пообучил модель для надежного броска кубика

Пользователь обучил языковую модель бросать кубик, обеспечивая, что каждое число появляется примерно один раз из шести бросков. В посте подчеркивается, что популярные LLM часто отвечают '4', когда спрашивают о броске кубика, что иллюстрирует более широкую проблему в обучении на основе вознаграждений: модели часто не эффективно исследуют пространство и вместо этого следуют известным паттернам.

media Latent Space · 8 д назад

Radical AI достигает ускорения в 10 раз в открытии материалов

Radical AI ускорил открытие материалов, создав и исследуя 1200 сплавов за шесть месяцев — почти в 10 раз быстрее, чем цель DARPA/GE MACH по созданию 500 сплавов за год. Их автономные лаборатории используют искусственных ученых для генерации и проверки гипотез в замкнутых системах, что привело к созданию 300 новых материалов, из которых 10 демонстрируют новые, передовые свойства, которые сейчас разрабатываются для коммерческого применения.