يكشف مقياس Pre-Flight أن نماذج LLM تتخلف عن موثوقية الخبراء في المعرفة التشغيلية للطيران

يقيّم مقياس Pre-Flight النماذج اللغوية الكبيرة على المعرفة التشغيلية للطيران، ويكشف عن فجوة كبيرة بين أداء النموذج وقدرة البشر الخبراء. يتكون المقياس من 300 سؤال اختيار من متعدد أعدّها ممارسون في مجال الطيران، ويختبر فهم المعايير الدولية، ولوائح ICAO وUS FAA، والعمليات الأرضية.

يغطي مجموعة البيانات العمليات الأرضية للمطارات الدولية، والأطر التنظيمية، والسيناريوهات التشغيلية المعقدة.
أُجريت التقييمات باستخدام إطار عمل Inspect مع بروتوكول اختيار من متعدد قياسي.
حتى أقوى نموذج تم تقييمه في عام 2026 حقق دقة تبلغ 82.7% فقط، مقارنةً بمرجع الخبراء الذي يبلغ حوالي 95%.
تحسّن الأداء تدريجياً من حوالي 75% في أوائل عام 2025 لكنه لا يزال أقل بشكل كبير من موثوقية مستوى الخبراء.

يجادل المؤلفون بأن التقييم الخاص بالنطاق هو شرط مسبق ضروري للنشر المسؤول للذكاء الاصطناعي التوليدي في عمليات الطيران غير الحرجة للأمان.