Engenheiros da OpenAI resolveram falhas inexplicáveis em C++ em sua infraestrutura de dados Rockset ao identificar duas causas distintas: corrupção silenciosa de hardware em um host Azure e uma condição de corrida de 18 anos no GNU libunwind.

  • As falhas envolviam funções retornando para endereços inválidos ou ponteiros de pilha desalinhados, o que contradizia as hipóteses padrão de depuração de software.
  • A análise inicial descartou bugs no código da aplicação, problemas do compilador e falhas na entrega de sinais do kernel devido à falta de evidências.
  • Os pesquisadores utilizaram core dumps e a zona vermelha x86_64 para preservar quadros de pilha inativos para uma análise detalhada pós-falha.
  • A investigação mudou de uma única causa para dois bugs não relacionados após analisar dados de falhas em nível populacional, em vez de instâncias isoladas.

Esta abordagem demonstra como tratar falhas como um problema epidemiológico permite que engenheiros identifiquem falhas raras e complexas que os métodos tradicionais de depuração perdem.