Semantic Flip propone un marco para sintetizar muestras fuera de distribución transformando consultas y memoria de video para crear pares no respondibles. Estos pares entrenan un módulo de rechazo ligero que se adjunta a modelos existentes de visión-lenguaje sin reentrenamiento, mejorando el rendimiento de la negativa en preguntas y respuestas encarnadas y localización espacial. En el nuevo benchmark SpaceReject, alcanza una puntuación F1 de 0.9559.
Semantic Flip: Generación sintética de OOD para una negativa robusta
Traducido del English → Español