В данном исследовании оценивается, могут ли мультимодальные большие языковые модели (MLLM) среднего масштаба выполнять локальное именование концептов в строгих условиях zero-shot, присваивая метки областям ограничивающих рамок. Авторы предлагают воспроизводимый протокол оценки для Именования Концептов, включающий промптинг с замкнутым множеством и стратегию на основе сходства эмбеддингов для больших пространств меток.

  • Эксперименты с четырьмя MLLM от 7B до 32B параметров демонстрируют согласованные тенденции производительности по различным наборам данных.
  • Точность моделей в точном совпадении на уровне объектов составляет от 62% до 88%.
  • Исследование подчеркивает потенциал аннотации концептов без обучения из локализованных областей для Объяснимого ИИ, основанного на концептах (C-XAI).

Авторы публикуют воспроизводимую фреймворк для поддержки будущих исследований C-XAI с низкими затратами, обсуждая ограничения и режимы отказов, выявленные в ходе оценки.