OpenAI के इंजीनियरों ने अपने Rockset डेटा इन्फ्रास्ट्रक्चर में अस्पष्ट C++ क्रैश को हल किया, जिसमें दो अलग-अलग कारणों की पहचान की गई: Azure होस्ट पर सilent हार्डवेयर करप्शन और GNU libunwind में 18 साल पुरानी रेस कंडीशन।
- क्रैश में ऐसे फंक्शंस शामिल थे जो बोगस एड्रेस या गलत संरेखित स्टैक पॉइंटर्स पर वापस आ रहे थे, जिसने मान्य सॉफ्टवेयर डीबगिंग परिकल्पनाओं को चुनौती दी।
- प्रारंभिक विश्लेषण में एप्लीकेशन कोड बग, कंपाइलर समस्याएं और kernel सिग्नल डिलीवरी समस्याओं को बाहर कर दिया गया क्योंकि कोई सबूत नहीं था।
- शोधकर्ताओं ने विस्तृत पोस्ट-क्रैश विश्लेषण के लिए निष्क्रिय स्टैक फ्रेम को सुरक्षित रखने के लिए कोर डंप और x86_64 रेड ज़ोन का उपयोग किया।
- अलग-अलग उदाहरणों के बजाय जनसंख्या स्तर के क्रैश डेटा का विश्लेषण करने के बाद, जांच एकल कारण से दो असंबंधित बग की ओर बढ़ गई।
यह दृष्टिकोण दिखाता है कि क्रैश को एक महामारी विज्ञान समस्या के रूप में कैसे माना जाए, जिससे इंजीनियर उन दुर्लभ और जटिल विफलताओं की पहचान कर सकते हैं जो पारंपरिक डीबगिंग विधियाँ छोड़ देती हैं।