DAIN: Динамическая сеть взаимодействий на основе агентов для эффективного и совместного мультимодального рассуждения

Исследователи представляют Динамическую сеть взаимодействий на основе агентов (DAIN), framework, который переосмысливает мультимодальное слияние как динамический процесс совместной работы нескольких агентов, а не полагается на статические архитектуры. DAIN использует контекстно-зависимый Мета-контроллер для динамического планирования разреженной активации специализированных агентов и организует сжатую коммуникацию для достижения консенсуса.

Применяет функцию потерь с несколькими целями для совместной оптимизации точности задачи, специализации агентов и операционной эффективности посредством разреженной активации и регуляризации коммуникации.
Демонстрирует состояние-of-the-art производительность на пяти бенчмарках (ADNI, MIMIC-IV, MM-IMDB, CMU-MOSI, ENRICO), включая прирост точности на 2.6% на ADNI.
Улучшает интерпретируемость за счет раскрытия контекстно-зависимых ролей агентов и паттернов сотрудничества, сохраняя вычислительную эффективность посредством выборочной разреженной активации.

Работа демонстрирует эффективность динамических парадигм на основе агентов для мультимодального рассуждения, предлагая улучшенную производительность и интерпретируемость по сравнению с традиционными статическими подходами Mixture-of-Experts.