ReLAR introduce un marco guiado por refuerzo que refin iterativamente los estados ocultos para mejorar la estabilidad del razonamiento en LLM. Utiliza controladores de profundidad y acción aprendidos entrenados mediante gradientes de política para determinar adaptativamente los pasos de refinamiento, logrando mejor precisión y calidad de generación con menor sobrecarga de inferencia que los métodos de razonamiento explícito.