В данной работе представлена Aloe-Vision — семейство открытых больших моделей для работы с визуальными и языковыми данными (7B и 72B), обученных на недавно выпущенном наборе данных Aloe-Vision-Data для решения проблем нехватки данных и устойчивости в ИИ для здравоохранения. Авторы демонстрируют, что их высококачественная обучающая смесь обеспечивает значительный прирост производительности по сравнению с базовыми моделями, сохраняя при этом общие возможности.

  • Aloe-Vision-Data: Крупномасштабная смесь медицинских и общих доменов мультимодальных и текстовых источников, отфильтрованная по качеству, для тонкой настройки моделей.
  • Открытый релиз: Полные веса, рецепты обучения и данные открыто доступны для масштабов моделей 7B и 72B.
  • CareQA-Vision: Новый визуальный бенчмарк, полученный из испанских медицинских экзаменов и экзаменов по сестринскому делу для резидентов (MIR и EIR), с низким риском загрязнения данных.
  • Производительность: Модели демонстрируют конкурентоспособные результаты по сравнению с современными аналогами, не компрометируя общие возможности.
  • Анализ уязвимостей: Текущие LVLM остаются уязвимыми к состязательным и вводящим в заблуждение входным данным, что подчеркивает проблемы надежности в клинических контекстах.