Pre-Flight 벤치마크가 드러낸 항공 운영 지식에서 LLM의 전문가 신뢰성 부족

Pre-Flight 벤치마크는 항공 운영 지식에 대한 대규모 언어 모델을 평가하며, 모델 성능과 인간 전문가 능력 간의 상당한 격차를 보여줍니다. 항공 실무자가 작성한 300개의 객관식 질문으로 구성되어 있으며, 국제 표준, ICAO 및 US FAA 규정, 지상 운영 이해도를 테스트합니다.

데이터셋은 국제 공항 지상 운영, 규제 체계, 복잡한 운영 시나리오를 다룹니다.
평가는 Inspect 평가 프레임워크와 표준 객관식 프로토콜을 사용하여 수행되었습니다.
2026년에 평가된 가장 강력한 모델도 82.7%의 정확도에 그쳤으며, 전문가 기준은 약 95%입니다.
성능은 2025년 초 약 75%에서 점차 향상되었지만 여전히 전문가 수준의 신뢰성보다 크게 낮습니다.

저자들은 안전에 치명적이지 않은 항공 운영에서 생성형 AI의 책임 있는 배포를 위해 도메인 특화 평가가 필수 전제 조건이라고 주장합니다.