VIMPO introduce un método de optimización de política sin crítico que deriva una función de valor implícita por la política a partir del aprendizaje por refuerzo con regularización KL. Permite la incorporación de recompensas verificables sin entrenar un crítico y supera a GRPO en benchmarks matemáticos, especialmente bajo recompensas ruidosas.
arxiv
arXiv cs.LG
·
hace 2 h
·
fuente: hace 10 d
·
research
VIMPO: Optimización de política sin crítico para LLMs
Traducido del English → Español
Importancia 3/3
Supera un benchmark de un laboratorio puntero
Nueva función frente a los líderes
arXiv cs.LG
OpenAI
Google DeepMind
Meta AI
Evaluation & benchmarks
Reasoning models
Training methods