Данная работа решает проблему склонности мультимодальных больших языковых моделей выдавать излишне уверенные ответы в задачах медицинского визуального ответа на вопросы, предлагая основанную на обучении рамку, которая дообучает эти модели для лучшей калибровки. Метод использует составную функцию потерь, сочетающую калибровку по типу Брайера, регуляризацию якорей, контрастное выравнивание изображения и текста, а также члены KL-дивергенции для согласования уверенности модели с фактической правильностью.
- Рамка использует факторный дизайн возмущения $2 \times 2$, пересекающий наличие изображения с целостностью текста, чтобы исследовать опору на визуальные или языковые входные данные.
- Для защиты способности модели отвечать во время дообучения применяется регуляризатор KL-дивергенции топ-K.
- Эксперименты на трех бенчмарках и двух архитектурах (MedGemma 4B IT и Qwen2 VL 7B Instruct) показывают снижение ошибки калибровки более чем на 60% и улучшение дискриминации более чем на 26%.
- Подход превосходит методы промптинга, сэмплирования и другие методы, основанные на обучении, сохраняя при этом предиктивную точность; весь код доступен в открытом доступе.
Этот метод помогает обеспечить, чтобы уверенность, выражаемая медицинскими ИИ-моделями, точно отражала их фактическую производительность, что критически важно для надежной клинической поддержки принятия решений.