Este trabajo presenta Aloe-Vision, una familia de modelos grandes de visión y lenguaje de código abierto (7B y 72B) entrenados en el recién lanzado conjunto de datos Aloe-Vision-Data para abordar la escasez de datos y los problemas de robustez en la IA para atención médica. Los autores demuestran que su mezcla de entrenamiento de alta calidad produce ganancias significativas de rendimiento sobre las líneas base mientras mantiene capacidades generales.
- Aloe-Vision-Data: Una mezcla a gran escala y filtrada por calidad de fuentes multimodales y de solo texto de dominios médicos y generales para el ajuste fino del modelo.
- Lanzamiento abierto: Los pesos completos, recetas de entrenamiento y datos se liberan abiertamente para las escalas de modelos de 7B y 72B.
- CareQA-Vision: Un nuevo benchmark de visión derivado de exámenes de residencia médica y de enfermería españoles (MIR y EIR) con bajo riesgo de contaminación.
- Rendimiento: Los modelos logran un rendimiento competitivo frente a alternativas de última generación sin comprometer las capacidades generales.
- Análisis de vulnerabilidad: Los LVLM actuales siguen siendo vulnerables a entradas adversarias y engañosas, lo que destaca los desafíos de confiabilidad en contextos clínicos.