Este estudio evalúa si los Modelos de Lenguaje Multimodal a gran escala (MLLMs) pueden realizar la denominación localizada de conceptos bajo condiciones estrictas de zero-shot, asignando etiquetas a regiones de cajas delimitadoras. Los autores proponen un protocolo de evaluación reproducible para la Denominación de Conceptos que incluye prompts de conjunto cerrado y una estrategia basada en similitud de incrustaciones para espacios de etiquetas grandes.

  • Experimentos con cuatro MLLMs que varían entre 7B y 32B parámetros demuestran tendencias de rendimiento consistentes a través de los conjuntos de datos.
  • Los modelos logran una precisión de coincidencia exacta a nivel de objeto entre el 62% y el 88%.
  • La investigación destaca el potencial de la anotación de conceptos sin entrenamiento a partir de regiones localizadas para la IA Explicable basada en Conceptos (C-XAI).

Los autores publican un marco reproducible para apoyar futuras investigaciones de C-XAI de bajo costo, discutiendo las limitaciones y modos de fallo identificados durante la evaluación.