Este estudo investiga a instabilidade das gerações impulsionadas por personas (PDGs) em grandes modelos de linguagem quando aplicadas a tarefas de resposta a perguntas de múltipla escolha (MCQA), um domínio frequentemente negligenciado em comparação com interações de texto livre. Os autores desenvolveram três métricas para avaliar o desempenho, o resultado e a estabilidade da correção da pergunta em distintas dimensões.
- A instabilidade varia consistentemente entre famílias de modelos, tamanho do modelo e domínios de perguntas, com questões de matemática e senso comum exibindo maior instabilidade.
- O formato do prompt da tarefa introduz mais instabilidade nas previsões do que outros hiperparâmetros como a temperatura.
- A instabilidade está relacionada à precisão da tarefa, revelando que diferentes configurações experimentais podem resultar em melhores e piores personas distintas apesar de sua similaridade.
As descobertas destacam a importância de verificar a instabilidade dos hiperparâmetros nas gerações impulsionadas por personas para garantir desempenho confiável.