MECoBench introduit un benchmark pour la collaboration d'agents incarnés multimodaux

Les chercheurs présentent MECoBench, un benchmark de coopération incarnée multimodale conçu pour évaluer les capacités collaboratives des grands modèles de langage multimodaux (MLLMs) dans des environnements ancrés visuellement. La plateforme couvre diverses tâches du monde réel et inclut deux structures de coopération ainsi que trois modes de collaboration distincts.

Des expériences approfondies révèlent que si la collaboration améliore généralement l'achèvement des tâches, les avantages dépendent de l'équilibre entre les gains et la complexité de coordination.
La communication est identifiée comme essentielle au succès de la collaboration, les modes optimaux variant en fonction de la taille de l'équipe et des capacités du modèle.
Le benchmark démontre que la collaboration améliore la robustesse dans des conditions de priors bruités et d'exploration.

MECoBench fournit un banc d'essai systématique pour comprendre les mécanismes et les limites de la collaboration incarnée multimodale.