ELVA introduce un marco de aprendizaje por refuerzo basado en reglas para abordar la ceguera de grano en la recuperación multimodal. Al utilizar recompensas verificables y diferenciar las muestras negativas según su similitud, ELVA mejora la precisión del ranking y logra una ganancia del 13.1% en MRBench, un punto de referencia para escenarios de consulta multi-grano.