MECoBench presenta un benchmark para la colaboración de agentes encarnados multimodales

Los investigadores presentan MECoBench, un benchmark de cooperación encarnada multimodal diseñado para evaluar las capacidades colaborativas de los grandes modelos de lenguaje multimodales (MLLM) en entornos con fundamentación visual. La plataforma abarca diversas tareas del mundo real e incluye dos estructuras de cooperación junto con tres modos de colaboración distintos.

Experimentos extensos revelan que, aunque la colaboración generalmente mejora la finalización de tareas, los beneficios dependen de equilibrar las ganancias contra la complejidad de coordinación.
Se identifica la comunicación como esencial para el éxito de la colaboración, con modos óptimos que varían según el tamaño del equipo y la capacidad del modelo.
El benchmark demuestra que la colaboración mejora la robustez bajo priors ruidosos y condiciones de exploración.

MECoBench proporciona un banco de pruebas sistemático para comprender los mecanismos y límites de la colaboración encarnada multimodal.