Pre-Flightベンチマークは、航空運用知識に関する大規模言語モデルを評価し、モデルのパフォーマンスと人間の専門家との間に大きなギャップがあることを示している。航空実務者が作成した300問の多肢選択問題で構成され、国際基準、ICAOおよびUS FAAの規制、地上運用の理解度をテストする。
- データセットは、国際空港の地上運用、規制枠組み、複雑な運用シナリオをカバーしている。
- 評価は、Inspect評価フレームワークと標準的な多肢選択プロトコルを使用して実施された。
- 2026年に評価された最も強力なモデルでも82.7%の精度にとどまり、専門家の参照値は約95%であった。
- パフォーマンスは2025年初頭の約75%から徐々に向上したが、依然として専門家レベルの信頼性よりも大幅に下回っている。
著者らは、安全クリティカルでない航空運用における生成AIの責任ある導入には、ドメイン固有の評価が必要不可欠であると主張している。