ELVA: A Ranking-Driven Framework for Multimodal Retrieval

ELVA introduces a rule-based reinforcement learning framework to address grain blindness in multimodal retrieval. By using verifiable rewards and differentiating negative samples based on similarity, ELVA improves ranking precision and achieves a 13.1% gain on MRBench, a benchmark for multi-grain query scenarios.