Insinyur OpenAI mengatasi crash C++ yang tidak dapat dijelaskan dalam infrastruktur data Rockset mereka dengan mengidentifikasi dua penyebab berbeda: korupsi perangkat keras diam-diam pada host Azure dan race condition berusia 18 tahun di GNU libunwind.
- Crash tersebut melibatkan fungsi yang kembali ke alamat palsu atau pointer tumpukan yang tidak sejajar, yang menentang hipotesis debugging perangkat lunak standar.
- Analisis awal menyingkirkan bug kode aplikasi, masalah kompilator, dan masalah pengiriman sinyal kernel karena kurangnya bukti.
- Para peneliti memanfaatkan core dump dan zona merah x86_64 untuk mempertahankan frame tumpukan tidak aktif guna analisis pasca-crash yang mendetail.
- Penyelidikan bergeser dari satu penyebab menjadi dua bug yang tidak terkait setelah menganalisis data crash tingkat populasi daripada kejadian terisolasi.
Pendekatan ini menunjukkan bagaimana memperlakukan crash sebagai masalah epidemiologis memungkinkan insinyur mengidentifikasi kegagalan langka dan kompleks yang terlewatkan oleh metode debugging tradisional.