В данном исследовании оценивается, могут ли мультимодальные большие языковые модели (MLLM) среднего масштаба выполнять локальное именование концептов в строгих условиях zero-shot, присваивая метки областям ограничивающих рамок. Авторы предлагают воспроизводимый протокол оценки для Именования Концептов, включающий промптинг с замкнутым множеством и стратегию на основе сходства эмбеддингов для больших пространств меток.
- Эксперименты с четырьмя MLLM от 7B до 32B параметров демонстрируют согласованные тенденции производительности по различным наборам данных.
- Точность моделей в точном совпадении на уровне объектов составляет от 62% до 88%.
- Исследование подчеркивает потенциал аннотации концептов без обучения из локализованных областей для Объяснимого ИИ, основанного на концептах (C-XAI).
Авторы публикуют воспроизводимую фреймворк для поддержки будущих исследований C-XAI с низкими затратами, обсуждая ограничения и режимы отказов, выявленные в ходе оценки.