Pre-Flight基准测试评估大型语言模型在航空运营知识方面的表现,揭示了模型性能与人类专家能力之间的显著差距。该基准测试包含由航空从业人员编写的300道多项选择题,测试对国际标准、ICAO和US FAA法规以及地面操作的理解。
- 数据集涵盖国际机场地面操作、监管框架和复杂的运营场景。
- 评估使用Inspect评估框架和标准的多项选择协议进行。
- 即使在2026年评估的最强模型也仅达到82.7%的准确率,而专家参考水平约为95%。
- 性能从2025年初的约75%逐步提升,但仍远低于专家级可靠性。
作者认为,领域特定的评估是负责任地在非安全关键航空操作中部署生成式AI的必要前提条件。