في البنية التحتية السحابية الكبيرة ، يمكن أن يسبب تدهور الأداء الطفيف نفايات موارد ضخمة. من أجل حل هذه المشكلة ، طورت Meta FBDETECT ، وهو نظام يمكنه اكتشاف انحدارات الأداء الصغيرة للغاية. وفر الكثير من موارد الخادم كل عام. ستقدم هذه المقالة بالتفصيل مبدأ العمل ، والأساسي الفني والتطبيق العملي لـ FBDETECT.
حتى انخفاض الأداء البسيط يمكن أن يؤدي إلى نفايات موارد كبيرة في إدارة البنية التحتية السحابية الكبيرة. على سبيل المثال ، في شركة مثل META ، قد يبدو انخفاضًا بنسبة 0.05 ٪ في سرعة تشغيل التطبيق تافهة ، ولكن مع تشغيل ملايين الخوادم في نفس الوقت ، يمكن أن يتراكم هذا التأخير الصغير إلى مضيعة لآلاف الخوادم. لذلك ، إنه تحد كبير بالنسبة لـ Meta لاكتشاف وحل هذه الانحدارات الصغيرة في الوقت المناسب.
لحل هذه المشكلة ، أطلقت META AI FBDETECT ، وهو نظام اكتشاف انحدار الأداء لبيئات الإنتاج التي يمكن أن تلتقط الحد الأدنى من انحدار الأداء ، حتى تصل إلى 0.005 ٪. FBDETECT قادرة على مراقبة ما يقرب من 800000 سلسلة زمنية ، تغطي مقاييس متعددة مثل الإنتاجية ، الكمون ، وحدة المعالجة المركزية واستخدام الذاكرة ، بما في ذلك مئات الخدمات وملايين الخوادم. من خلال تبني تقنيات مبتكرة مثل أخذ عينات تتبع المكدس عبر مجموعة الخادم بأكملها ، فإن FBDETECT قادر على التقاط اختلافات الأداء على مستوى الروتين الفرعي.
يركز FBDETECT على تحليل أداء مستوى الروتين الفرعي ، والذي يقلل من صعوبة الكشف من 0.05 ٪ من الانحدار مستوى التطبيق إلى تغيير مستوى الجذور تحت السهل. هذا النهج يقلل بشكل كبير من الضوضاء ، مما يجعل التتبع تغييرات أكثر عملية.
يتضمن النواة الفنية لـ FBDETECT ثلاثة جوانب رئيسية. أولاً ، يقلل من تباين بيانات الأداء من خلال اكتشاف الانحدار على مستوى الروتين ، بحيث يمكن أيضًا تحديد الانحدارات الصغيرة في الوقت المناسب. ثانياً ، سيقوم النظام بإجراء أخذ عينات من تتبع المكدس على مجموعة الخادم بأكملها ، وقياس أداء كل روتين فرعي بدقة ، على غرار تحليل الأداء في بيئة واسعة النطاق. أخيرًا ، لكل الانحدار المكتشف ، يقوم FBDETECT بإجراء تحليل السبب الجذري لتحديد ما إذا كان الانحدار ناتجًا عن مشكلة مؤقتة أو تغيير في التكلفة أو تغيير رمز فعلي.
بعد سبع سنوات من اختبار بيئة الإنتاج الفعلي ، يتمتع FBDETECT بقدرات قوية لمكافحة التداخل ويمكنه تصفية إشارات الانحدار الخاطئة بشكل فعال. إن إدخال هذا النظام لا يقلل بشكل كبير من عدد الأحداث التي يحتاج مطوروها إلى التحقيق ، ولكن أيضًا يحسن كفاءة البنية التحتية للوصف. مع الانحدار الصغير المكتشف ، يساعد FBDETECT META على تجنب نفايات الموارد على حوالي 4000 خادم كل عام.
في الشركات الكبيرة مثل Meta مع ملايين الخوادم ، يعد اكتشاف انحدار الأداء مهمًا بشكل خاص. من خلال قدرات المراقبة المتقدمة الخاصة بها ، لا يحسن FBDETECT معدل التعرف على الانحدارات الصغيرة فحسب ، بل يوفر أيضًا للمطورين طرق تحليل الأسباب الجذرية الفعالة ، مما يساعد على حل المشكلات المحتملة في الوقت المناسب وتعزيز التشغيل الفعال للبنية التحتية بأكملها.
مدخل الورق: https://tangchq74.github.io/fbdetect-sosp24.pdf
النقاط الرئيسية:
يمكن لـ FBDETECT مراقبة انحدارات الأداء الصغيرة ، حتى تصل إلى 0.005 ٪ ، مما يؤدي إلى تحسين دقة الكشف بشكل كبير.
يغطي النظام ما يقرب من 800000 سلسلة زمنية ، ويتضمن مقاييس أداء متعددة ، ويمكنه إجراء تحليل دقيق في بيئات واسعة النطاق.
بعد سبع سنوات من التطبيق العملي ، ساعدت FBDETECT META على تجنب إهدار الموارد لحوالي 4000 خادم سنويًا ، مما يحسن الكفاءة الإجمالية للبنية التحتية.
باختصار ، توفر FBDETECT البنية التحتية السحابية على نطاق واسع من META مع إمكانات تكييف وتحليل الأداء الفعال ، وتقليل نفايات الموارد بشكل فعال ، وتحسين استقرار النظام وكفاءة التشغيل. يوفر تطبيق هذا النظام في إدارة الموارد للمؤسسات الكبيرة أفكارًا جديدة لتحسين استخدام الموارد وتقليل تكاليف التشغيل.