Авторы предлагают QC-SMOTE — фреймворк контролируемого по качеству оверсемплинга, предназначенный для решения проблемы генерации синтетических образцов низкого качества в зашумленных или перекрывающихся областях, характерных для задач несбалансированной классификации. Этот метод оценивает надежность образцов меньшинства с помощью композитного показателя доверия окрестности и использует стратегию best-of-K, управляемую IPQ, для генерации синтетических кандидатов.
- QC-SMOTE объединяет локальную плотность, безопасный уровень и изоляцию от класса большинства для оценки надежности образцов меньшинства.
- Синтетические кандидаты генерируются с использованием стратегии best-of_K, управляемой IPQ, которая оценивает чистоту середины интервала и clearance класса большинства.
- Поведение генерации адаптируется в режимах перекрытия и дисбаланса путем настройки диапазона интерполяции и критериев отбора для соответствия локальной геометрии данных.
- Синтетические образцы низкого качества заменяются оригинальными дубликатами меньшинства, когда чистота окрестности падает ниже адаптивного порога.
Эксперименты на 30 несбалансированных наборах данных показывают, что QC-SMOTE достигает наилучшего среднего значения AUC-ROC и Macro F1 среди сравниваемых методов оверсемплинга, особенно в условиях умеренного и сильного дисбаланса.