MIRCaps: масштабный многодоменный визуально-языковой датасет

MIRCaps представляет масштабный многомодальный датасет, содержащий 141 364 изображения, 981 947 описаний на уровне изображения, 1 742 264 описания на уровне регионов и 5 391 779 аннотаций bounding box. Он обеспечивает детальное обучение визуально-языковых моделей за счёт подробных описаний для категорий объектов, их размеров, цветов, действий и контекста окружающей среды, и демонстрирует эффективность в задачах генерации описаний изображений и обнаружения объектов.