TAPO avanza la auto-distilación mediante la construcción de trayectorias micro-reflectivas explícitas que retienen el razonamiento erróneo e insertan diagnósticos en lenguaje natural. Estas trayectorias, derivadas de rollouts del modelo correctos e incorrectos, proporcionan correcciones de error finas ancladas en el propio razonamiento del modelo, mejorando tanto el razonamiento del primer intento como la corrección de errores en comparación con GRPO.
arxiv
arXiv cs.LG
·
hace 1 h
·
fuente: hace 11 d
·
research
TAPO: Auto-distilación con trayectorias micro-reflectivas
Traducido del English → Español
Importancia 3/3
Nueva función frente a los líderes
Nuevo entorno de evaluación con diferenciadores
arXiv cs.LG
OpenAI
Google DeepMind
Meta AI
Evaluation & benchmarks
Reasoning models
Training methods