Los investigadores introducen el aprendizaje por refuerzo con retroalimentación metacognitiva (RLMF) para abordar deficiencias sistémicas en los modelos de lenguaje grandes, como alucinar con alta confianza y malrepresentar la incertidumbre interna. El método refina el ranking de completados durante la optimización de preferencias basándose en la calidad de las autoevaluaciones del modelo sobre su rendimiento.
- RLMF operacionaliza la metacognición utilizando autoevaluaciones para refinar los rankings de completados durante la optimización de preferencias.
- Un nuevo mecanismo de selección de datos metacognitivos identifica ejemplos de entrenamiento de alto valor, superando al aprendizaje activo ingenuo.
- El enfoque apunta a una calibración fiel (FC) para alinear la confianza expresada con la incertidumbre intrínseca mediante un proceso desacoplado en dos etapas.
- RLMF supera al aprendizaje por refuerzo estándar hasta en un 63% mientras preserva la precisión en diversas tareas.
Este paradigma mejora la metacognición y alineación de los LLM, sugiriendo que el rendimiento metacognitivo sirve como una señal efectiva de aprendizaje por refuerzo para superar los límites de los métodos anteriores de retroalimentación intrínseca.