MIRCaps introduce un conjunto de datos multimodal a gran escala con 141.364 imágenes, 981.947 descripciones a nivel de imagen, 1.742.264 descripciones a nivel de región y 5.391.779 anotaciones de cajas delimitadoras. Permite el aprendizaje fino de visión y lenguaje al proporcionar descripciones detalladas para categorías de objetos, tamaños, colores, acciones y contexto ambiental, y demuestra efectividad en tareas de descripción de imágenes y detección de objetos.