Le benchmark Pre-Flight révèle que les LLMs sont en retard par rapport à la fiabilité des experts en connaissances opérationnelles aéronautiques

Le benchmark Pre-Flight évalue les grands modèles de langage sur les connaissances opérationnelles aéronautiques, révélant un écart significatif entre les performances des modèles et la capacité des humains experts. Composé de 300 questions à choix multiples rédigées par des praticiens de l'aviation, le benchmark teste la compréhension des normes internationales, des réglementations ICAO et US FAA, et des opérations au sol.

Le jeu de données couvre les opérations au sol des aéroports internationaux, les cadres réglementaires et des scénarios opérationnels complexes.
L'évaluation a été réalisée en utilisant le framework d'évaluation Inspect avec un protocole standard à choix multiples.
Même le modèle le plus puissant évalué en 2026 n'a atteint que 82,7 % de précision, comparé à une référence experte d'environ 95 %.
Les performances se sont améliorées progressivement depuis environ 75 % au début de 2025 mais restent substantiellement inférieures à la fiabilité de niveau expert.

Les auteurs soutiennent que l'évaluation spécifique au domaine est une condition préalable nécessaire au déploiement responsable de l'IA générative dans les opérations aéronautiques non critiques pour la sécurité.