Авторы предлагают QC-SMOTE — фреймворк контролируемого по качеству оверсемплинга, предназначенный для решения проблемы генерации синтетических образцов низкого качества в зашумленных или перекрывающихся областях, характерных для задач несбалансированной классификации. Этот метод оценивает надежность образцов меньшинства с помощью композитного показателя доверия окрестности и использует стратегию best-of-K, управляемую IPQ, для генерации синтетических кандидатов.

  • QC-SMOTE объединяет локальную плотность, безопасный уровень и изоляцию от класса большинства для оценки надежности образцов меньшинства.
  • Синтетические кандидаты генерируются с использованием стратегии best-of_K, управляемой IPQ, которая оценивает чистоту середины интервала и clearance класса большинства.
  • Поведение генерации адаптируется в режимах перекрытия и дисбаланса путем настройки диапазона интерполяции и критериев отбора для соответствия локальной геометрии данных.
  • Синтетические образцы низкого качества заменяются оригинальными дубликатами меньшинства, когда чистота окрестности падает ниже адаптивного порога.

Эксперименты на 30 несбалансированных наборах данных показывают, что QC-SMOTE достигает наилучшего среднего значения AUC-ROC и Macro F1 среди сравниваемых методов оверсемплинга, особенно в условиях умеренного и сильного дисбаланса.