Бенчмарк Pre-Flight оценивает большие языковые модели по знаниям в области авиационной эксплуатации, выявляя значительный разрыв между производительностью моделей и способностями экспертов-людей. Включая 300 вопросов с множественным выбором, составленных практиками авиации, бенчмарк проверяет понимание международных стандартов, регламентов ICAO и US FAA, а также наземных операций.

  • Набор данных охватывает наземные операции в международных аэропортах, нормативно-правовые рамки и сложные операционные сценарии.
  • Оценка проводилась с использованием фреймворка Inspect по стандартному протоколу вопросов с множественным выбором.
  • Даже самая сильная модель, оценённая в 2026 году, достигла точности лишь 82.7%, по сравнению с экспертным эталоном около 95%.
  • Производительность постепенно улучшалась с примерно 75% в начале 2025 года, но остаётся существенно ниже уровня надёжности экспертов.

Авторы утверждают, что оценка, специфичная для предметной области, является необходимым условием для ответственного внедрения генеративного ИИ в авиационных операциях, не связанных с безопасностью.