研究者らは、視覚的に grounded な環境においてマルチモーダル大規模言語モデル(MLLMs)の協調能力を評価するために設計されたマルチモーダル具身協力ベンチマークである MECoBench を導入した。このプラットフォームは多様な実世界のタスクをカバーし、2つの協力構造と3つの異なる協調モードを含んでいる。

  • 大規模な実験により、協調が一般的にタスク完了を向上させる一方で、その恩恵は調整の複雑さとのバランスを取ることに依存することが明らかになった。
  • 協調の成功にはコミュニケーションが不可欠であり、最適なモードはチームサイズとモデルの能力に応じて変化する。
  • ベンチマークは、協調がノイズのある事前情報や探索条件下での堅牢性を高めることを示した。

MECoBench は、マルチモーダル具身協力のメカニズムと限界を理解するための体系的なテストベッドを提供する。