Une évaluation systématique montre que les LLM commettent des erreurs de référence aux données à toutes les tailles

Une nouvelle étude présente la première évaluation systématique des erreurs de référence aux données tabulaires (DRE), qui consistent à citer incorrectement ou à omettre des valeurs de tableau malgré la compréhension de la structure. La recherche trouve que ces erreurs se produisent dans tous les modèles testés allant de 1,7B à 20B de paramètres.

Les DRE compromettent la correction et la fiabilité des étapes de raisonnement intermédiaires dans les grands modèles linguistiques.
L'intégration de la référence aux données comme critique améliore la précision des réponses jusqu'à 12,0% via le filtrage et l'échantillonnage par rejet.
Un modèle critique léger de 4B paramètres a été entraîné, atteignant un score F1 moyen de 78,2% pour détecter les DRE en distribution et hors distribution.

Les auteurs démontrent que l'utilisation d'un modèle critique dédié aide efficacement l'inférence pour les modèles plus grands en identifiant ces échecs de référence spécifiques.