MECoBench представляет бенчмарк для оценки совместной работы мультимодальных воплощённых агентов

Исследователи представляют MECoBench, мультимодальный бенчмарк воплощённого сотрудничества, предназначенный для оценки совместных возможностей мультимодальных больших языковых моделей (MLLM) в визуально обусловленных средах. Платформа охватывает разнообразные реальные задачи и включает две структуры сотрудничества наряду с тремя различными режимами взаимодействия.

Масштабные эксперименты показывают, что хотя сотрудничество в целом улучшает выполнение задач, преимущества зависят от баланса между выигрышем и сложностью координации.
Коммуникация определена как необходимая для успеха сотрудничества, при этом оптимальные режимы варьируются в зависимости от размера команды и возможностей модели.
Бенчмарк демонстрирует, что сотрудничество повышает устойчивость при наличии шумных априорных данных и условий исследования.

MECoBench предоставляет систематическую тестовую среду для понимания механизмов и пределов мультимодального воплощённого сотрудничества.