Бенчмарк SHOVIR оценивает обучение визуальным ярлыкам при генерации радиологических отчетов путем расширения MIMIC-CXR и PadChest-GR с помощью меток CheXpert для каждой коробки (bounding box). Он использует эксперименты по окклюзии на уровне изображений и заболеваний, чтобы изолировать прямые и контекстуальные ярлыки, где модели полагаются на ложные корреляции, а не на реальные визуальные доказательства.

  • SHOVIR расширяет два пространственно аннотированных набора данных рентгенограмм грудной клетки, MIMIC-CXR и PadChest-GR, метками CheXpert для каждой коробки.
  • Бенчмарк определяет эксперименты по окклюзии на уровне изображений и заболеваний, сопоставляя базовую производительность с локализованными возмущениями, специфичными для регионов.
  • Он изолирует два режима отказа: прямые ярлыки, при которых находки сохраняются после удаления визуальных доказательств, и контекстуальные ярлыки, при которых обнаружение ухудшается, когда сопутствующие патологии закрыты.
  • Бенчмаркинг восьми современных VLM показывает, что поведение ярлыков существенно различается в зависимости от архитектур и наборов данных.
  • Модели с наивысшим качеством базовых отчетов не обязательно занимают самые высокие места в пространственном закреплении, показывая, что клинически беглая генерация может сосуществовать с поверхностной опорой на визуальные доказательства.

Эти результаты выявляют слепое пятно в текущей оценке RRG и стимулируют разработку протоколов оценки, учитывающих регионы, чтобы обеспечить опору моделей на фактические патологические доказательства.