SPOT-E introduce un método en tiempo de prueba que utiliza focos visuales para mejorar la fundamentación de evidencias en modelos de visión y lenguaje congelados. Emplea anclas de baja entropía y un objetivo de moldeado de entropía para reducir la incertidumbre de las respuestas mientras se preservan los tokens de alta confianza, mejorando la robustez bajo corrupciones visuales a través de benchmarks y familias de VLMs.
SPOT-E: Moldeado de entropía en tiempo de prueba con focos visuales para VLMs congelados
Traducido del English → Español