Аудит чувствительности к порядку в мультимодальных больших языковых моделях

В исследовании представлен Facet-Probe, аудит по пяти граням 18 передовых и моделей с открытым весом (open-weight) для оценки чувствительности к порядку. Стандартные бенчмарки часто упускают из виду, приводит ли перестановка доказательств к изменению ответов, что является свойством надежности, подчеркиваемым в новых руководящих принципах оценки ИИ. Используя байесовскую модель ответа на элемент (item-response), исследователи отделили шум порядка от смещения по каждой грани и оценили нижние границы стохастичности декодера с помощью контрольных групп с неизменным порядком. Аудит показал, что ни одна из 18 моделей не является инвариантной к порядку, при этом средние для панели доли переворота ответов варьируются от 24% до 50% в зависимости от граней. Даже лучшая по производительности модель меняла ответ в 13,4% испытаний, что указывает на то, что более высокая способность не устраняет эту уязвимость. Тесты смягчения с использованием изменений промптов без дообучения оказались условно зависящими от модальности и не переносились между задачами текстового и визуального рассуждения. Эти выводы свидетельствуют о том, что исправления на уровне промпта недостаточны для общей устойчивости к порядку, что стимулирует разработку архитектурных решений. Авторы предлагают долю переворота ответов при перестановке порядка в качестве стандартной оси отчетности для будущих оценок мультимодальных больших языковых моделей (MLLM).