В данном исследовании оценивается влияние методов ресэмплинга, таких как SMOTE и случайное недосэмплирование, на калибровку вероятностей в ансамблях деревьев; установлено, что хотя стоимость SMOTE невелика, недосэмплирование сильно ухудшает калибровку.
- SMOTE вызывает незначительное увеличение ожидаемой ошибки калибровки (ECE) на +0.009 при соотношениях дисбаланса от 1.9 до 70, причем выигрыш в дискриминации обычно перевешивает этот штраф.
- Случайное недосэмплирование значительно увеличивает ECE вплоть до 0.395 на наборах данных с высоким дисбалансом, поскольку результирующие обучающие наборы слишком малы для надежной оценки вероятностей.
- Один шаг постобработки с использованием регрессии Платта или изотонической регрессии снижает ECE до 66% при пренебрежимо малой потере в ранжирующей способности (AUC -0.002).
- Аналитическая коррекция prior-shift не работает для SMOTE, поскольку она искажает условную плотность классов, а не только априорное распределение, что требует калибровки на основе данных.
Авторы рекомендуют исследователям, изучающим несбалансированные данные, сообщать метрики калибровки вместе с метриками дискриминации и советуют практикам проводить калибровку после ресэмплинга всякий раз, когда предсказанные вероятности влияют на принятие решений.