Pre-Flight बेंचमार्क एविएशन ऑपरेशनल ज्ञान पर बड़े भाषा मॉडलों का मूल्यांकन करता है, मॉडल प्रदर्शन और विशेषज्ञ मानवीय क्षमता के बीच एक महत्वपूर्ण अंतर को उजागर करता है। एविएशन व्यावसायिकों द्वारा लिखे गए 300 बहुविकल्पीय प्रश्नों से मिलकर, बेंचमार्क अंतर्राष्ट्रीय मानकों, ICAO और US FAA विनियमों, और भूमि संचालन की समझ का परीक्षण करता है।
- डेटासेट अंतर्राष्ट्रीय हवाई अड्डे भूमि संचालन, विनियामक ढांचे, और जटिल संचालन परिदृश्यों को कवर करता है।
- मूल्यांकन मानक बहुविकल्पीय प्रोटोकॉल के साथ Inspect मूल्यांकन फ्रेमवर्क का उपयोग करके किया गया था।
- 2026 में मूल्यांकित सबसे शक्तिशाली मॉडल ने भी केवल 82.7% सटीकता हासिल की, जो लगभग 95% के विशेषज्ञ संदर्भ के मुकाबले है।
- प्रदर्शन 2025 की शुरुआत में लगभग 75% से धीरे-धीरे सुधरा, लेकिन विशेषज्ञ-स्तर की विश्वसनीयता से काफी नीचे बना हुआ है।
लेखकों का तर्क है कि डोमेन-विशिष्ट मूल्यांकन सुरक्षा-गैर-महत्वपूर्ण एविएशन संचालन में जनरेटिव AI के जिम्मेदाराना तैनाती के लिए एक आवश्यक पूर्व शर्त है।