Исследователи представляют Динамическую сеть взаимодействий на основе агентов (DAIN), framework, который переосмысливает мультимодальное слияние как динамический процесс совместной работы нескольких агентов, а не полагается на статические архитектуры. DAIN использует контекстно-зависимый Мета-контроллер для динамического планирования разреженной активации специализированных агентов и организует сжатую коммуникацию для достижения консенсуса.
- Применяет функцию потерь с несколькими целями для совместной оптимизации точности задачи, специализации агентов и операционной эффективности посредством разреженной активации и регуляризации коммуникации.
- Демонстрирует состояние-of-the-art производительность на пяти бенчмарках (ADNI, MIMIC-IV, MM-IMDB, CMU-MOSI, ENRICO), включая прирост точности на 2.6% на ADNI.
- Улучшает интерпретируемость за счет раскрытия контекстно-зависимых ролей агентов и паттернов сотрудничества, сохраняя вычислительную эффективность посредством выборочной разреженной активации.
Работа демонстрирует эффективность динамических парадигм на основе агентов для мультимодального рассуждения, предлагая улучшенную производительность и интерпретируемость по сравнению с традиционными статическими подходами Mixture-of-Experts.