VERITAS introduce un marco generador-verificador que permite a los robots mejorar las políticas en tiempo real sin entrenamiento adicional. Un verificador visual evalúa las acciones en el momento de la inferencia, permitiendo ganancias de rendimiento consistentes a través de rollouts verificados que sirven como supervisión efectiva para la mejora offline de políticas. El post-entrenamiento con estos rollouts verificados iguala en eficiencia a las demostraciones expertas, sin intervención humana.