Act2Answer оценивает сохранение знаний в моделях визуально-языковых-действий

Act2Answer вводит лёгкий протокол для оценки сохранения общеупотребимых и мировых знаний в моделях визуально-языковых-действий (VLA), требуя от агентов отвечать на вопросы через действия размещения объектов. Большой масштабный анализ 7 моделей VLA и 9 базовых моделей VLM показывает, что VLAs хорошо справляются с простыми концепциями, но демонстрируют большие разрывы в богатых семантических категориях по сравнению с их исходными моделями VLM, при этом обучение с помощью VQA улучшает сохранение знаний, а наиболее яркие сигналы, связанные с правильным ответом, наблюдаются в средних слоях VLA.