Benchmark Pre-Flight revela que LLMs ficam atrás da confiabilidade de especialistas em conhecimento operacional de aviação

O benchmark Pre-Flight avalia modelos de linguagem grandes no conhecimento operacional de aviação, revelando uma lacuna significativa entre o desempenho do modelo e a capacidade humana especializada. Composto por 300 perguntas de múltipla escolha elaboradas por profissionais da aviação, o benchmark testa a compreensão de padrões internacionais, regulamentações da ICAO e US FAA, e operações em solo.

O conjunto de dados cobre operações em solo de aeroportos internacionais, estruturas regulatórias e cenários operacionais complexos.
A avaliação foi conduzida usando o framework de avaliação Inspect com um protocolo padrão de múltipla escolha.
Mesmo o modelo mais forte avaliado em 2026 alcançou apenas 82.7% de precisão, comparado a uma referência de especialista de aproximadamente 95%.
O desempenho melhorou gradualmente desde cerca de 75% no início de 2025, mas permanece substancialmente abaixo da confiabilidade de nível especialista.

Os autores argumentam que a avaliação específica do domínio é uma pré-condição necessária para o despliegue responsável de IA generativa em operações de aviação não críticas para segurança.