SPOT-E представляет метод на этапе тестирования, использующий визуальные фокусы для усиления фиксации доказательств в замороженных моделях визуально-языковых моделей. Метод использует низкоэнтропийные анкоры и цель формирования энтропии для снижения неопределенности ответов, при этом сохраняя высокодоверительные токены, что повышает устойчивость к визуальным искажениям на различных наборах данных и в различных семействах моделей ВЛ.