Los autores proponen QC-SMOTE, un marco de sobremuestreo con control de calidad diseñado para abordar la generación de muestras sintéticas de baja calidad en regiones ruidosas o superpuestas comunes en tareas de clasificación desbalanceada. Este método estima la fiabilidad de las muestras minoritarias utilizando una puntuación compuesta de confianza del vecindario y emplea una estrategia best-of-K guiada por IPQ para generar candidatos sintéticos.

  • QC-SMOTE combina densidad local, nivel seguro y aislamiento de la clase mayoritaria para estimar la fiabilidad de las muestras minoritarias.
  • Los candidatos sintéticos se generan utilizando una estrategia best-of-K guiada por IPQ que evalúa la pureza del punto medio y la separación de la clase mayoritaria.
  • El comportamiento de generación se adapta entre regímenes de superposición-desbalance ajustando el rango de interpolación y los criterios de selección para coincidir con la geometría local de los datos.
  • Las muestras sintéticas de baja calidad se reemplazan por duplicados minoritarios originales cuando la pureza del vecindario cae por debajo de un umbral adaptativo.

Los experimentos en 30 conjuntos de datos desbalanceados demuestran que QC-SMOTE logra el mejor AUC-ROC promedio y Macro F1 entre los métodos de sobremuestreo comparados, particularmente bajo condiciones de desbalance moderado y severo.