Los investigadores proponen un método bootstrap novel llamado Autofiltrado que entrena un modelo CLIP en un conjunto de datos en evolución seleccionado mediante autofiltrado iterativo. Este enfoque equilibra muestras limpias filtradas de alta probabilidad con ejemplos diversos de toda la distribución para mitigar el ruido en conjuntos de datos de visión-lenguaje a gran escala.
- El método itera entre entrenar el modelo y seleccionar una mezcla de datos mejorada sin requerir datos adicionales ni modelos preentrenados.
- El conjunto de datos en evolución combina muestras limpias altamente probables filtradas con muestras diversas de toda la distribución.
- Entrenar en conjuntos de datos de visión-lenguaje filtrados por este enfoque mejora el rendimiento en tareas posteriores en comparación con heurísticas existentes y conjuntos de datos de referencia curados.