حل مهندسو OpenAI أعطاب C++ غير المبررة في بنية Rockset للبيانات من خلال تحديد سببين متميزين: تلف عتادي صامت على مضيف Azure، وظرف سباق قديم عمره 18 عامًا في GNU libunwind.

  • شملت الأعطال دوال تعود إلى عناوين زائفة أو مؤشرات مكدس غير محاذاة، مما يتحدى فرضيات تصحيح الأخطاء البرمجية القياسية.
  • استبعد التحليل الأولي أخطاء كود التطبيق، ومشاكل المترجم، ومشاكل تسليم إشارات النواة بسبب عدم وجود أدلة.
  • استخدم الباحثون ملفات التفريغ والمنطقة الحمراء x86_64 للحفاظ على إطارات المكدس غير النشطة لتحليل مفصل بعد العطل.
  • تحول التحقيق من سبب واحد إلى خطأين غير مرتبطين بعد تحليل بيانات الأعطال على مستوى السكان بدلاً من الحالات المعزولة.

يوضح هذا النهج كيف يسمح التعامل مع الأعطال كمشكلة وبائية للمهندسين بتحديد الفشل النادر والمعقد الذي تفوتها طرق تصحيح الأخطاء التقليدية.