RefRad2D es un conjunto de datos bilingüe a gran escala de 1.2M pares de imagen-texto de TC y RM de la práctica clínica. Entrenado con estos datos, RadGrounder logra resultados competitivos en VQA y generación de informes mientras mantiene la calidad del lenguaje mediante la supervisión de fundamentación espacial sin degradación del rendimiento.