Los ingenieros de OpenAI resolvieron caídas inexplicables de C++ en su infraestructura de datos Rockset identificando dos causas distintas: corrupción silenciosa de hardware en un host de Azure y una condición de carrera de 18 años en GNU libunwind.
- Las caídas involucraban funciones que retornaban a direcciones falsas o punteros de pila desalineados, lo cual contradecía las hipótesis estándar de depuración de software.
- El análisis inicial descartó errores en el código de la aplicación, problemas del compilador y fallos en la entrega de señales del kernel debido a la falta de evidencia.
- Los investigadores utilizaron volcados de núcleo y la zona roja de x86_64 para preservar los marcos de pila inactivos con el fin de realizar un análisis detallado posterior a la caída.
- La investigación pasó de una causa única a dos errores no relacionados tras analizar datos de caídas a nivel poblacional en lugar de instancias aisladas.
Este enfoque demuestra cómo tratar las caídas como un problema epidemiológico permite a los ingenieros identificar fallos raros y complejos que los métodos tradicionales de depuración pasan por alto.