Este estudio evalúa el impacto de los métodos de remuestreo como SMOTE y el submuestreo aleatorio en la calibración de probabilidades en conjuntos de árboles, encontrando que, aunque el costo de SMOTE es pequeño, el submuestreo degrada severamente la calibración.

  • SMOTE causa un aumento menor en el Error de Calibración Esperado (ECE) de +0.009 a través de razones de desequilibrio de 1.9 a 70, con ganancias en discriminación que típicamente superan esta penalización.
  • El submuestreo aleatorio infla significativamente el ECE hasta 0.395 en conjuntos de datos con alto desequilibrio porque los conjuntos de entrenamiento resultantes son demasiado pequeños para una estimación fiable de probabilidades.
  • Un único paso de recalibración posterior usando regresión de Platt o isotónica reduce el ECE hasta un 66% con pérdida insignificante en el poder de clasificación (AUC -0.002).
  • La corrección analítica del cambio previo falla para SMOTE porque distorsiona la densidad condicional a la clase en lugar de solo la previa, requiriendo recalibración basada en datos.

Los autores recomiendan que los estudios de aprendizaje con desequilibrio reporten métricas de calibración junto con discriminación y aconsejan a los profesionales recalibrar después del remuestreo siempre que las probabilidades predichas impulsen decisiones.