Los investigadores introducen el aprendizaje por refuerzo con retroalimentación metacognitiva (RLMF) para abordar deficiencias sistémicas en los modelos de lenguaje grandes, como alucinar con alta confianza y malrepresentar la incertidumbre interna. El método refina el ranking de completados durante la optimización de preferencias basándose en la calidad de las autoevaluaciones del modelo sobre su rendimiento.

  • RLMF operacionaliza la metacognición utilizando autoevaluaciones para refinar los rankings de completados durante la optimización de preferencias.
  • Un nuevo mecanismo de selección de datos metacognitivos identifica ejemplos de entrenamiento de alto valor, superando al aprendizaje activo ingenuo.
  • El enfoque apunta a una calibración fiel (FC) para alinear la confianza expresada con la incertidumbre intrínseca mediante un proceso desacoplado en dos etapas.
  • RLMF supera al aprendizaje por refuerzo estándar hasta en un 63% mientras preserva la precisión en diversas tareas.

Este paradigma mejora la metacognición y alineación de los LLM, sugiriendo que el rendimiento metacognitivo sirve como una señal efectiva de aprendizaje por refuerzo para superar los límites de los métodos anteriores de retroalimentación intrínseca.