El aprendizaje por refuerzo con retroalimentación metacognitiva mejora la expresión de incertidumbre en LLM

Los investigadores introducen el aprendizaje por refuerzo con retroalimentación metacognitiva (RLMF) para abordar deficiencias sistémicas en los modelos de lenguaje grandes, como alucinar con alta confianza y malrepresentar la incertidumbre interna. El método refina el ranking de completados durante la optimización de preferencias basándose en la calidad de las autoevaluaciones del modelo sobre su rendimiento.

RLMF operacionaliza la metacognición utilizando autoevaluaciones para refinar los rankings de completados durante la optimización de preferencias.
Un nuevo mecanismo de selección de datos metacognitivos identifica ejemplos de entrenamiento de alto valor, superando al aprendizaje activo ingenuo.
El enfoque apunta a una calibración fiel (FC) para alinear la confianza expresada con la incertidumbre intrínseca mediante un proceso desacoplado en dos etapas.
RLMF supera al aprendizaje por refuerzo estándar hasta en un 63% mientras preserva la precisión en diversas tareas.

Este paradigma mejora la metacognición y alineación de los LLM, sugiriendo que el rendimiento metacognitivo sirve como una señal efectiva de aprendizaje por refuerzo para superar los límites de los métodos anteriores de retroalimentación intrínseca.