arxiv arXiv cs.CL · 1 小时前 · 来源： 5 天前 · research

MECoBench推出多模态具身智能体协作基准

译自 English → 中文

研究人员推出了MECoBench，这是一个多模态具身协作基准，旨在评估多模态大语言模型（MLLM）在视觉 grounding 环境中的协作能力。该平台涵盖多样化的真实世界任务，并包含两种协作结构以及三种不同的协作模式。

大量实验表明，虽然协作通常能提高任务完成度，但收益取决于在增益与协调复杂性之间取得平衡。
沟通被确定为协作成功的关键，最佳模式根据团队规模和模型能力而变化。
基准测试表明，在存在噪声先验和探索条件下，协作能增强鲁棒性。

MECoBench 提供了一个系统的测试平台，用于理解多模态具身协作的机制和局限。

重要性 1/3 具有差异化优势的新评测框架 arXiv cs.CL AI agents Evaluation & benchmarks