Explicaciones localizadas basadas en conceptos de bajo costo: ¿hasta dónde podemos llegar con enfoques sin entrenamiento?
Este estudio evalúa si los Modelos de Lenguaje Multimodal a gran escala (MLLMs) pueden realizar la denominación localizada de conceptos bajo condiciones estrictas de zero-shot, asignando etiquetas a regiones de cajas delimitadoras. Los autores proponen un protocolo de evaluación reproducible para la Denominación de Conceptos que incluye prompts de conjunto cerrado y una estrategia basada en similitud de incrustaciones para espacios de etiquetas grandes.