Este estudo investiga a instabilidade das gerações impulsionadas por personas (PDGs) em grandes modelos de linguagem quando aplicadas a tarefas de resposta a perguntas de múltipla escolha (MCQA), um domínio frequentemente negligenciado em comparação com interações de texto livre. Os autores desenvolveram três métricas para avaliar o desempenho, o resultado e a estabilidade da correção da pergunta em distintas dimensões.

  • A instabilidade varia consistentemente entre famílias de modelos, tamanho do modelo e domínios de perguntas, com questões de matemática e senso comum exibindo maior instabilidade.
  • O formato do prompt da tarefa introduz mais instabilidade nas previsões do que outros hiperparâmetros como a temperatura.
  • A instabilidade está relacionada à precisão da tarefa, revelando que diferentes configurações experimentais podem resultar em melhores e piores personas distintas apesar de sua similaridade.

As descobertas destacam a importância de verificar a instabilidade dos hiperparâmetros nas gerações impulsionadas por personas para garantir desempenho confiável.