MMed-Bench-IR introduce un benchmark heterogéneo para la recuperación de información médica multilingüe en seis idiomas. Evalúa la alineación intercultural, la discriminación de conceptos y la recuperación de evidencia a través de tres tareas distintas sin conceptos ni consultas superpuestos. La evaluación muestra caídas significativas en el rendimiento intercultural, con codificadores biomédicos en inglés que caen de 0.818 a 0.056 nDCG@10 al pasar al japonés, destacando limitaciones no detectadas por los benchmarks solo en inglés.