FusionRS: Primer conjunto de datos a gran escala de teledetección RGB-infrarrojo
FusionRS presenta el primer conjunto de datos a gran escala RGB-infrarrojo-texto para la modelización de visión-lenguaje en teledetección. Alinea imágenes RGB e infrarrojas con descripciones conscientes del infrarrojo, permitiendo modelos de base de visión-lenguaje bimodales. Los experimentos muestran una mejora en la alineación RGB-IR, recuperación y generación de descripciones, con estudios de ablación que confirman el papel crítico de la supervisión textual específica de la modalidad.