Gold Points Sniper (GPS) permite a los modelos ligeros de visión y lenguaje realizar razonamiento multimodal autoguiado para la comprensión de acciones humanas finas. Al integrar un Extractor de Puntos Dorados, un Cuestionador Socrático Selectivo y un Evaluador de Entailment Semántico, GPS alcanza un rendimiento comparable al de GPT-4o mientras mantiene una precisión factual superior en datos de ajuste por instrucciones basados en el benchmark CAP.