Бенчмарк Pre-Flight оценивает большие языковые модели по знаниям в области авиационной эксплуатации, выявляя значительный разрыв между производительностью моделей и способностями экспертов-людей. Включая 300 вопросов с множественным выбором, составленных практиками авиации, бенчмарк проверяет понимание международных стандартов, регламентов ICAO и US FAA, а также наземных операций.
- Набор данных охватывает наземные операции в международных аэропортах, нормативно-правовые рамки и сложные операционные сценарии.
- Оценка проводилась с использованием фреймворка Inspect по стандартному протоколу вопросов с множественным выбором.
- Даже самая сильная модель, оценённая в 2026 году, достигла точности лишь 82.7%, по сравнению с экспертным эталоном около 95%.
- Производительность постепенно улучшалась с примерно 75% в начале 2025 года, но остаётся существенно ниже уровня надёжности экспертов.
Авторы утверждают, что оценка, специфичная для предметной области, является необходимым условием для ответственного внедрения генеративного ИИ в авиационных операциях, не связанных с безопасностью.