Los ingenieros de OpenAI resolvieron caídas inexplicables de C++ en su infraestructura de datos Rockset identificando dos causas distintas: corrupción silenciosa de hardware en un host de Azure y una condición de carrera de 18 años en GNU libunwind.

  • Las caídas involucraban funciones que retornaban a direcciones falsas o punteros de pila desalineados, lo cual contradecía las hipótesis estándar de depuración de software.
  • El análisis inicial descartó errores en el código de la aplicación, problemas del compilador y fallos en la entrega de señales del kernel debido a la falta de evidencia.
  • Los investigadores utilizaron volcados de núcleo y la zona roja de x86_64 para preservar los marcos de pila inactivos con el fin de realizar un análisis detallado posterior a la caída.
  • La investigación pasó de una causa única a dos errores no relacionados tras analizar datos de caídas a nivel poblacional en lugar de instancias aisladas.

Este enfoque demuestra cómo tratar las caídas como un problema epidemiológico permite a los ingenieros identificar fallos raros y complejos que los métodos tradicionales de depuración pasan por alto.