arxiv arXiv cs.LG · hace 1 h · fuente: hace 11 d · research

TAPO: Auto-distilación con trayectorias micro-reflectivas

Traducido del English → Español

TAPO avanza la auto-distilación mediante la construcción de trayectorias micro-reflectivas explícitas que retienen el razonamiento erróneo e insertan diagnósticos en lenguaje natural. Estas trayectorias, derivadas de rollouts del modelo correctos e incorrectos, proporcionan correcciones de error finas ancladas en el propio razonamiento del modelo, mejorando tanto el razonamiento del primer intento como la corrección de errores en comparación con GRPO.

Importancia 3/3 Nueva función frente a los líderes Nuevo entorno de evaluación con diferenciadores arXiv cs.LG OpenAI Google DeepMind Meta AI Evaluation & benchmarks Reasoning models Training methods

Benchmarks

Benchmark	Modelo	Puntuación
AIME 2024	TAPO	—
AIME 2025	TAPO	—

Leer original