Benchmark Pre-Flight mengungkap LLM tertinggal dari keandalan ahli dalam pengetahuan operasional penerbangan

Benchmark Pre-Flight mengevaluasi model bahasa besar pada pengetahuan operasional penerbangan, mengungkapkan kesenjangan signifikan antara kinerja model dan kemampuan manusia ahli. Terdiri dari 300 pertanyaan pilihan ganda yang ditulis oleh praktisi penerbangan, benchmark ini menguji pemahaman tentang standar internasional, regulasi ICAO dan US FAA, serta operasi darat.

Dataset mencakup operasi darat bandara internasional, kerangka regulasi, dan skenario operasional kompleks.
Evaluasi dilakukan menggunakan framework evaluasi Inspect dengan protokol pilihan ganda standar.
Bahkan model terkuat yang dievaluasi pada 2026 hanya mencapai akurasi 82,7%, dibandingkan dengan referensi ahli sekitar 95%.
Kinerja meningkat secara bertahap dari sekitar 75% di awal 2025 tetapi tetap jauh di bawah keandalan tingkat ahli.

Para penulis berargumen bahwa evaluasi spesifik domain adalah prasyarat yang diperlukan untuk penerapan AI generatif yang bertanggung jawab dalam operasi penerbangan non-kritis keamanan.