L'apprentissage par renforcement avec feedback métacognitif améliore l'expression de l'incertitude des LLM

Les chercheurs introduisent l'apprentissage par renforcement avec feedback métacognitif (RLMF) pour pallier les carences systémiques des grands modèles de langage, telles que l'hallucination avec une haute confiance et la mauvaise représentation de l'incertitude interne. La méthode affine le classement des complétions lors de l'optimisation par préférence en se basant sur la qualité des auto-évaluations du modèle.

Le RLMF opérationnalise la métacognition en utilisant les auto-évaluations pour affiner le classement des complétions lors de l'optimisation par préférence.
Un mécanisme novateur de sélection de données métacognitives identifie des exemples d'entraînement à haute valeur, surpassant l'apprentissage actif naïf.
L'approche vise une calibration fidèle (FC) pour aligner la confiance exprimée avec l'incertitude intrinsèque via un processus découplé en deux étapes.
Le RLMF surpasse l'apprentissage par renforcement standard jusqu'à 63 % tout en préservant la précision sur diverses tâches.

Ce paradigme améliore la métacognition et l'alignement des LLM, suggérant que la performance métacognitive sert de signal d'apprentissage par renforcement efficace pour dépasser les limites des méthodes de feedback intrinsèque antérieures.