Los autores proponen un nuevo método de arranque en cascada llamado Autofiltrado para abordar el ruido en conjuntos de datos a gran escala de visión y lenguaje sin depender de supervisión manual ni referencias curadas. Este enfoque entrena un modelo CLIP en un conjunto de datos en evolución que equilibra muestras limpias filtradas de alta probabilidad con ejemplos diversos de toda la distribución. El proceso alterna entre entrenar el modelo y seleccionar una mezcla de datos mejorada para los pasos siguientes. Al refinar continuamente el conjunto de datos mediante este ciclo, el método reduce la necesidad de fuentes adicionales de datos externos. El estudio demuestra que entrenar con estos conjuntos de datos auto-seleccionados mejora eficazmente el rendimiento en tareas posteriores. Esta técnica opera independientemente de modelos preentrenados o estrategias de filtrado basadas en heurísticas.