MECoBench apresenta benchmark para colaboração de agentes encarnados multimodais

Pesquisadores apresentam o MECoBench, um benchmark de cooperação encarnada multimodal projetado para avaliar as capacidades colaborativas de grandes modelos de linguagem multimodais (MLLMs) em ambientes com fundamentação visual. A plataforma abrange diversas tarefas do mundo real e inclui duas estruturas de cooperação junto com três modos de colaboração distintos.

Experimentos extensos revelam que, embora a colaboração geralmente melhore a conclusão de tarefas, os benefícios dependem de equilibrar ganhos contra a complexidade de coordenação.
A comunicação é identificada como essencial para o sucesso da colaboração, com modos ótimos variando com base no tamanho da equipe e na capacidade do modelo.
O benchmark demonstra que a colaboração melhora a robustez sob priors ruidosos e condições de exploração.

O MECoBench fornece um ambiente de teste sistemático para compreender os mecanismos e limites da colaboração encarnada multimodal.