Pre-Flight基准测试显示LLM在航空运营知识的专家可靠性方面落后

Pre-Flight基准测试评估大型语言模型在航空运营知识方面的表现，揭示了模型性能与人类专家能力之间的显著差距。该基准测试包含由航空从业人员编写的300道多项选择题，测试对国际标准、ICAO和US FAA法规以及地面操作的理解。

作者认为，领域特定的评估是负责任地在非安全关键航空操作中部署生成式AI的必要前提条件。