Отбор данных через итеративную самодиагностику для задач визуального языка

Исследователи предлагают новый метод с самонастраивающимся отбором, названный Self-Filtering, который обучает модель CLIP на эволюционирующем наборе данных, отобранном через итеративную самодиагностику. Этот подход балансирует между отфильтрованными высоковероятными чистыми примерами и разнообразными образцами из всего распределения, чтобы снизить уровень шума в крупномасштабных наборах данных для визуального языка.

Метод чередует обучение модели и выбор улучшенной смеси данных без необходимости использования дополнительных данных или предварительно обученных моделей.
Эволюционирующий набор данных объединяет отфильтрованные высоковероятные чистые примеры с разнообразными образцами из всего распределения.
Обучение на наборах данных для визуального языка, отфильтрованных этим методом, улучшает результаты в последующих задачах по сравнению с существующими эвристиками и курируемыми эталонными наборами данных.