Gold Points Sniper (GPS) позволяет лёгким моделям визуально-языкового взаимодействия проводить самоорганизованное многомодальное мышление для понимания детальных человеческих действий. Интегрируя экстрактор золотых точек, селективный сократовский вопросник и оценщик семантической логики, GPS достигает производительности, сравнимой с GPT-4o, при этом обеспечивая превосходную фактическую точность на данных инструкционного обучения, основанных на базе CAP.