SAMA: Marco unificado para la aumento de datos multimodales con pocos recursos

SAMA introduce un marco unificado que genera datos sintéticos de alta fidelidad y conscientes de la tarea al alinear anclas semánticas entre modalidades. Utiliza un Modelo de Lenguaje Multimodal Grande con Múltiples Expertos Colaborativos, con adaptadores compartidos y específicos de la tarea, y emplea un mecanismo de Difusión Preservadora de Anclas para la síntesis de imágenes, garantizando consistencia semántica mientras diversifica los contextos visuales. Experimentos extensos muestran que SAMA supera a los métodos más avanzados en MNER, MRE y MEE bajo condiciones de pocos recursos.