VIMPO introduce un método de optimización de política sin crítico que deriva una función de valor implícita por la política a partir del aprendizaje por refuerzo con regularización KL. Permite la incorporación de recompensas verificables sin entrenar un crítico y supera a GRPO en benchmarks matemáticos, especialmente bajo recompensas ruidosas.