Pesquisadores introduzem o aprendizado por reforço com feedback metacognitivo (RLMF) para abordar deficiências sistêmicas em modelos de linguagem grandes, como alucinar com alta confiança e representar incorretamente a incerteza interna. O método refina o ranking de conclusões durante a otimização de preferências com base na qualidade das autoavaliações do modelo sobre seu desempenho.

  • RLMF operacionaliza a metacognição usando autoavaliações para refinar os rankings de conclusões durante a otimização de preferências.
  • Um novo mecanismo de seleção de dados metacognitivos identifica exemplos de treinamento de alto valor, superando o aprendizado ativo ingênuo.
  • A abordagem visa uma calibração fiel (FC) para alinhar a confiança expressa com a incerteza intrínseca por meio de um processo desacoplado em duas etapas.
  • RLMF supera o aprendizado por reforço padrão em até 63% enquanto preserva a precisão em diversas tarefas.

Este paradigma aprimora a metacognição e o alinhamento de LLMs, sugerindo que o desempenho metacognitivo serve como um sinal eficaz de aprendizado por reforço para superar os limites dos métodos anteriores de feedback intrínseco.