Исследователи представляют MECoBench, мультимодальный бенчмарк воплощённого сотрудничества, предназначенный для оценки совместных возможностей мультимодальных больших языковых моделей (MLLM) в визуально обусловленных средах. Платформа охватывает разнообразные реальные задачи и включает две структуры сотрудничества наряду с тремя различными режимами взаимодействия.

  • Масштабные эксперименты показывают, что хотя сотрудничество в целом улучшает выполнение задач, преимущества зависят от баланса между выигрышем и сложностью координации.
  • Коммуникация определена как необходимая для успеха сотрудничества, при этом оптимальные режимы варьируются в зависимости от размера команды и возможностей модели.
  • Бенчмарк демонстрирует, что сотрудничество повышает устойчивость при наличии шумных априорных данных и условий исследования.

MECoBench предоставляет систематическую тестовую среду для понимания механизмов и пределов мультимодального воплощённого сотрудничества.