Selección de datos mediante autofiltrado iterativo para entornos de visión-lenguaje
Los investigadores proponen un método bootstrap novel llamado Autofiltrado que entrena un modelo CLIP en un conjunto de datos en evolución seleccionado mediante autofiltrado iterativo. Este enfoque equilibra muestras limpias filtradas de alta probabilidad con ejemplos diversos de toda la distribución para mitigar el ruido en conjuntos de datos de visión-lenguaje a gran escala.