Aloe-Vision: Устойчивые модели для работы с визуальными и языковыми данными в здравоохранении

В данной работе представлена Aloe-Vision — семейство открытых больших моделей для работы с визуальными и языковыми данными (7B и 72B), обученных на недавно выпущенном наборе данных Aloe-Vision-Data для решения проблем нехватки данных и устойчивости в ИИ для здравоохранения. Авторы демонстрируют, что их высококачественная обучающая смесь обеспечивает значительный прирост производительности по сравнению с базовыми моделями, сохраняя при этом общие возможности.

Aloe-Vision-Data: Крупномасштабная смесь медицинских и общих доменов мультимодальных и текстовых источников, отфильтрованная по качеству, для тонкой настройки моделей.
Открытый релиз: Полные веса, рецепты обучения и данные открыто доступны для масштабов моделей 7B и 72B.
CareQA-Vision: Новый визуальный бенчмарк, полученный из испанских медицинских экзаменов и экзаменов по сестринскому делу для резидентов (MIR и EIR), с низким риском загрязнения данных.
Производительность: Модели демонстрируют конкурентоспособные результаты по сравнению с современными аналогами, не компрометируя общие возможности.
Анализ уязвимостей: Текущие LVLM остаются уязвимыми к состязательным и вводящим в заблуждение входным данным, что подчеркивает проблемы надежности в клинических контекстах.