ReLAR: Refinamiento de Latentes Guiado por Refuerzo para el Razonamiento Estable de LLM

ReLAR introduce un marco guiado por refuerzo que refin iterativamente los estados ocultos para mejorar la estabilidad del razonamiento en LLM. Utiliza controladores de profundidad y acción aprendidos entrenados mediante gradientes de política para determinar adaptativamente los pasos de refinamiento, logrando mejor precisión y calidad de generación con menor sobrecarga de inferencia que los métodos de razonamiento explícito.