Отбор данных через итеративную самодиагностику для задач визуального языка
Исследователи предлагают новый метод с самонастраивающимся отбором, названный Self-Filtering, который обучает модель CLIP на эволюционирующем наборе данных, отобранном через итеративную самодиагностику. Этот подход балансирует между отфильтрованными высоковероятными чистыми примерами и разнообразными образцами из всего распределения, чтобы снизить уровень шума в крупномасштабных наборах данных для визуального языка.