MECoBench, 멀티모달 구형 에이전트 협력을 위한 벤치마크 도입

연구자들은 시각적으로 grounding된 환경에서 멀티모달 대규모 언어 모델(MLLMs)의 협력 능력을 평가하기 위해 설계된 멀티모달 구형 협력 벤치마크인 MECoBench를 소개했습니다. 이 플랫폼은 다양한 실제 세계 작업을 포괄하며, 두 가지 협력 구조와 세 가지 상이한 협력 모드를 포함합니다.

광범위한 실험 결과, 협력이 일반적으로 작업 완수를 향상시키지만 그 이점은 조정 복잡성과의 균형을 맞추는 데 달려 있음이 드러났습니다.
협력을 성공시키기 위해 커뮤니케이션이 필수적이며, 최적의 모드는 팀 규모와 모델 능력에 따라 달라집니다.
벤치마크는 협력이 노이즈가 있는 사전 조건과 탐색 조건 하에서 견고성을 향상시킨다는 것을 보여줍니다.

MECoBench는 멀티모달 구형 협력의 메커니즘과 한계를 이해하기 위한 체계적인 테스트베드를 제공합니다.