Бенчмарк Pre-Flight выявляет отставание LLM в надёжности экспертных знаний авиационной эксплуатации

Бенчмарк Pre-Flight оценивает большие языковые модели по знаниям в области авиационной эксплуатации, выявляя значительный разрыв между производительностью моделей и способностями экспертов-людей. Включая 300 вопросов с множественным выбором, составленных практиками авиации, бенчмарк проверяет понимание международных стандартов, регламентов ICAO и US FAA, а также наземных операций.

Набор данных охватывает наземные операции в международных аэропортах, нормативно-правовые рамки и сложные операционные сценарии.
Оценка проводилась с использованием фреймворка Inspect по стандартному протоколу вопросов с множественным выбором.
Даже самая сильная модель, оценённая в 2026 году, достигла точности лишь 82.7%, по сравнению с экспертным эталоном около 95%.
Производительность постепенно улучшалась с примерно 75% в начале 2025 года, но остаётся существенно ниже уровня надёжности экспертов.

Авторы утверждают, что оценка, специфичная для предметной области, является необходимым условием для ответственного внедрения генеративного ИИ в авиационных операциях, не связанных с безопасностью.