Act2Answer evalúa la retención de conocimiento en modelos de visión-lenguaje-acción

Act2Answer introduce un protocolo ligero para evaluar la retención de conocimiento del sentido común y del mundo en modelos VLA, requiriendo que los agentes respondan preguntas mediante acciones de colocación de objetos. Un estudio a gran escala de 7 modelos VLA y 9 líneas base VLM revela que los VLA funcionan bien en conceptos simples pero muestran brechas mayores en categorías semánticas ricas en comparación con sus VLMs fuente, con el co-entrenamiento VQA mejorando la retención de conocimiento y señales pico relevantes para la respuesta observadas en las capas intermedias de VLA.