MECoBench memperkenalkan benchmark untuk kolaborasi agen embodied multimodal

Para peneliti memperkenalkan MECoBench, sebuah benchmark kerjasama embodied multimodal yang dirancang untuk mengevaluasi kemampuan kolaboratif dari model bahasa besar multimodal (MLLMs) dalam lingkungan yang grounded secara visual. Platform ini mencakup berbagai tugas dunia nyata dan menyertakan dua struktur kerjasama bersama dengan tiga mode kolaborasi yang berbeda.

Eksperimen ekstensif mengungkapkan bahwa meskipun kolaborasi umumnya meningkatkan penyelesaian tugas, manfaatnya bergantung pada menyeimbangkan keuntungan terhadap kompleksitas koordinasi.
Komunikasi diidentifikasi sebagai hal yang penting untuk keberhasilan kolaborasi, dengan mode optimal yang bervariasi berdasarkan ukuran tim dan kemampuan model.
Benchmark ini menunjukkan bahwa kolaborasi meningkatkan ketahanan di bawah kondisi prior berisik dan eksplorasi.

MECoBench menyediakan testbed sistematis untuk memahami mekanisme dan batas-batas kolaborasi embodied multimodal.