DAIN: Red de Interacción Dinámica Basada en Agentes para el Razonamiento Multimodal Eficiente y Colaborativo

Los investigadores presentan la Red de Interacción Dinámica Basada en Agentes (DAIN), un marco que reconceptualiza la fusión multimodal como un proceso colaborativo dinámico de múltiples agentes, en lugar de depender de arquitecturas estáticas. DAIN utiliza un Meta-Controlador consciente del contexto para programar dinámicamente la activación dispersa de agentes especializados y orquesta una comunicación comprimida para la construcción de consenso.

Emplea una función de pérdida multiobjetivo para optimizar conjuntamente la precisión de la tarea, la especialización del agente y la eficiencia operativa mediante activación dispersa y regularización de la comunicación.
Logra un rendimiento de vanguardia en cinco conjuntos de datos (ADNI, MIMIC-IV, MM-IMDB, CMU-MOSI, ENRICO), incluyendo una ganancia de precisión del 2.6% en ADNI.
Mejora la interpretabilidad al exponer roles de agentes y patrones de colaboración dependientes del contexto, mientras mantiene la eficiencia computacional mediante activación dispersa por muestra.

El trabajo demuestra la efectividad de los paradigmas dinámicos basados en agentes para el razonamiento multimodal, ofreciendo un mejor rendimiento e interpretabilidad en comparación con los enfoques tradicionales de Mezcla de Expertos estáticos.