Explicaciones localizadas basadas en conceptos de bajo costo: ¿hasta dónde podemos llegar con enfoques sin entrenamiento?

Este estudio evalúa si los Modelos de Lenguaje Multimodal a gran escala (MLLMs) pueden realizar la denominación localizada de conceptos bajo condiciones estrictas de zero-shot, asignando etiquetas a regiones de cajas delimitadoras. Los autores proponen un protocolo de evaluación reproducible para la Denominación de Conceptos que incluye prompts de conjunto cerrado y una estrategia basada en similitud de incrustaciones para espacios de etiquetas grandes.

Experimentos con cuatro MLLMs que varían entre 7B y 32B parámetros demuestran tendencias de rendimiento consistentes a través de los conjuntos de datos.
Los modelos logran una precisión de coincidencia exacta a nivel de objeto entre el 62% y el 88%.
La investigación destaca el potencial de la anotación de conceptos sin entrenamiento a partir de regiones localizadas para la IA Explicable basada en Conceptos (C-XAI).

Los autores publican un marco reproducible para apoyar futuras investigaciones de C-XAI de bajo costo, discutiendo las limitaciones y modos de fallo identificados durante la evaluación.