Self-Filtering: Итеративный отбор данных для моделей "визуальный язык"

Авторы предлагают новый метод самонастраивающегося отбора, названный Self-Filtering, для устранения шума в масштабных наборах данных для моделей "визуальный язык" без опоры на ручной контроль или курируемые эталоны. Этот подход обучает модель CLIP на эволюционирующем наборе данных, который балансирует между отфильтрованными чистыми образцами с высокой вероятностью и разнообразными примерами из всего распределения. Процесс чередуется между обучением модели и выбором улучшенной смеси данных для последующих шагов. Непрерывно уточняя набор данных через этот цикл, метод снижает необходимость в дополнительных внешних источниках данных. Исследование демонстрирует, что обучение на таких самостоятельно отобранных наборах данных эффективно улучшает производительность в downstream-задачах. Этот метод работает независимо от предварительно обученных моделей или стратегий фильтрации, основанных на эвристиках.