Cette étude examine l'instabilité des générations pilotées par persona (PDG) dans les grands modèles de langage lorsqu'elles sont appliquées à des tâches de réponse à des questions à choix multiples (QCM), un domaine souvent négligé par rapport aux interactions en texte libre. Les auteurs ont développé trois métriques pour évaluer la stabilité des performances, des résultats et de la justesse des questions selon des dimensions distinctes.
- L'instabilité varie de manière cohérente entre les familles de modèles, la taille des modèles et les domaines de questions, les questions de mathématiques et de bon sens présentant une plus grande instabilité.
- Le format de l'invite de tâche introduit plus d'instabilité de prédiction que d'autres hyperparamètres tels que la température.
- L'instabilité est liée à la précision de la tâche, révélant que différents paramètres expérimentaux peuvent entraîner différentes meilleures et pires personas malgré leur similarité.
Les résultats soulignent l'importance de vérifier l'instabilité des hyperparamètres dans les générations pilotées par persona pour garantir des performances fiables.