Pre-Flight 벤치마크는 항공 운영 지식에 대한 대규모 언어 모델을 평가하며, 모델 성능과 인간 전문가 능력 간의 상당한 격차를 보여줍니다. 항공 실무자가 작성한 300개의 객관식 질문으로 구성되어 있으며, 국제 표준, ICAO 및 US FAA 규정, 지상 운영 이해도를 테스트합니다.

  • 데이터셋은 국제 공항 지상 운영, 규제 체계, 복잡한 운영 시나리오를 다룹니다.
  • 평가는 Inspect 평가 프레임워크와 표준 객관식 프로토콜을 사용하여 수행되었습니다.
  • 2026년에 평가된 가장 강력한 모델도 82.7%의 정확도에 그쳤으며, 전문가 기준은 약 95%입니다.
  • 성능은 2025년 초 약 75%에서 점차 향상되었지만 여전히 전문가 수준의 신뢰성보다 크게 낮습니다.

저자들은 안전에 치명적이지 않은 항공 운영에서 생성형 AI의 책임 있는 배포를 위해 도메인 특화 평가가 필수 전제 조건이라고 주장합니다.