Pre-Flightベンチマークが明らかにする：航空運用知識におけるLLMの専門家の信頼性に対する遅れ

Pre-Flightベンチマークは、航空運用知識に関する大規模言語モデルを評価し、モデルのパフォーマンスと人間の専門家との間に大きなギャップがあることを示している。航空実務者が作成した300問の多肢選択問題で構成され、国際基準、ICAOおよびUS FAAの規制、地上運用の理解度をテストする。

著者らは、安全クリティカルでない航空運用における生成AIの責任ある導入には、ドメイン固有の評価が必要不可欠であると主張している。