arxiv arXiv cs.LG · hace 2 h · fuente: hace 10 d · research

VIMPO: Optimización de política sin crítico para LLMs

Traducido del English → Español

VIMPO introduce un método de optimización de política sin crítico que deriva una función de valor implícita por la política a partir del aprendizaje por refuerzo con regularización KL. Permite la incorporación de recompensas verificables sin entrenar un crítico y supera a GRPO en benchmarks matemáticos, especialmente bajo recompensas ruidosas.

Importancia 3/3 Supera un benchmark de un laboratorio puntero Nueva función frente a los líderes arXiv cs.LG OpenAI Google DeepMind Meta AI Evaluation & benchmarks Reasoning models Training methods

Benchmarks

Benchmark	Modelo	Puntuación
AIME 2024	VIMPO	—
AIME 2025	VIMPO	—
MATH-500	VIMPO	—

Leer original