El benchmark Pre-Flight revela que los LLMs se quedan atrás en la fiabilidad experta del conocimiento operativo de aviación

El benchmark Pre-Flight evalúa modelos de lenguaje grandes en el conocimiento operativo de aviación, revelando una brecha significativa entre el rendimiento del modelo y la capacidad humana experta. Compuesto por 300 preguntas de opción múltiple elaboradas por profesionales de la aviación, el benchmark prueba la comprensión de estándares internacionales, regulaciones de ICAO y US FAA, y operaciones en tierra.

El conjunto de datos cubre operaciones en tierra de aeropuertos internacionales, marcos regulatorios y escenarios operativos complejos.
La evaluación se realizó utilizando el framework de evaluación Inspect con un protocolo estándar de opción múltiple.
Incluso el modelo más fuerte evaluado en 2026 logró solo una precisión del 82.7%, en comparación con una referencia experta de aproximadamente 95%.
El rendimiento mejoró gradualmente desde aproximadamente 75% a principios de 2025, pero sigue estando sustancialmente por debajo de la fiabilidad de nivel experto.

Los autores argumentan que la evaluación específica del dominio es un prerrequisito necesario para el despliegue responsable de IA generativa en operaciones de aviación no críticas para la seguridad.