Un nuevo método permite que los modelos de lenguaje grandes aprendan de sus propias trazas de razonamiento sin supervisión externa. Al destilar el cómputo del tiempo de inferencia en memorias latentes ligeras y modulares, el modelo logra un rendimiento competitivo con el entrenamiento completo y supera las líneas base de cero disparos y ICL crudo en tareas de razonamiento matemático, con una sobrecarga computacional mínima.
Memorias latentes ligeras y experienciales para la mejora continua
Traducido del English → Español