في بيئات الحوسبة السحابية واسعة النطاق، حتى التدهور البسيط في الأداء يمكن أن يؤدي إلى إهدار هائل للموارد. تواجه Meta التحدي المتمثل في اكتشاف مشكلات الأداء الدقيقة هذه وحلها بشكل فعال. ولتحقيق هذه الغاية، قام فريق Meta AI بتطوير FBDetect، وهو نظام يمكنه اكتشاف تراجعات الأداء الصغيرة للغاية في بيئات الإنتاج بدقة تصل إلى 0.005%. سيقدم لك محرر Downcodes بالتفصيل مبدأ العمل والنتائج الرائعة لبرنامج FBDetect.
في إدارة البنية التحتية السحابية الكبيرة، حتى التدهور البسيط في الأداء يمكن أن يؤدي إلى إهدار كبير للموارد. على سبيل المثال، في شركة مثل Meta، قد يبدو التباطؤ بنسبة 0.05% في أحد التطبيقات أمرًا غير مهم، ولكن عندما يتم تشغيل ملايين الخوادم في وقت واحد، يمكن أن يؤدي هذا التأخير البسيط إلى إضافة ما يصل إلى آلاف الخوادم المهدرة. ولذلك، فإن اكتشاف وحل هذه الانحدارات الطفيفة في الأداء في الوقت المناسب يمثل تحديًا كبيرًا لشركة Meta.
لحل هذه المشكلة، أطلقت Meta AI FBDetect، وهو نظام للكشف عن تراجع الأداء لبيئات الإنتاج يمكنه التقاط أصغر تراجعات الأداء، حتى بنسبة منخفضة تصل إلى 0.005%. FBDetect قادر على مراقبة ما يقرب من 800000 سلسلة زمنية، تغطي مؤشرات متعددة مثل الإنتاجية وزمن الوصول واستخدام وحدة المعالجة المركزية والذاكرة، بما في ذلك مئات الخدمات وملايين الخوادم. من خلال استخدام تقنيات مبتكرة مثل أخذ عينات تتبع المكدس عبر مجموعة خادم كاملة، فإن FBDetect قادر على التقاط اختلافات دقيقة في الأداء على مستوى الروتين الفرعي.
يركز FBDetect بشكل أساسي على تحليل الأداء على مستوى الروتين الفرعي، والذي يمكن أن يقلل من صعوبة الاكتشاف من انحدار مستوى التطبيق بنسبة 0.05% إلى التغييرات على مستوى الروتين الفرعي التي يمكن التعرف عليها بسهولة بنسبة 5%. يؤدي هذا الأسلوب إلى تقليل الضوضاء بشكل كبير، مما يجعل تتبع التغييرات أكثر عملية.
يتكون الجوهر الفني لبرنامج FBDetect من ثلاثة جوانب رئيسية. أولاً، فهو يقلل من تباين بيانات الأداء من خلال اكتشاف الانحدار على مستوى الروتين الفرعي، بحيث يمكن تحديد الانحدارات الصغيرة في الوقت المناسب. ثانيًا، يقوم النظام بأخذ عينات تتبع المكدس عبر مجموعة الخادم بأكملها لقياس أداء كل روتين فرعي بدقة، على غرار تحليل الأداء في بيئة واسعة النطاق. أخيرًا، بالنسبة لكل انحدار تم اكتشافه، يقوم FBDetect بإجراء تحليل السبب الجذري لتحديد ما إذا كان الانحدار ناتجًا عن مشكلة مؤقتة، أو تغيير في التكلفة، أو تغيير فعلي في التعليمات البرمجية.
بعد سبع سنوات من الاختبار في بيئات الإنتاج الفعلية، يتمتع FBDetect بقدرات قوية ضد التداخل ويمكنه تصفية إشارات الانحدار الخاطئة بشكل فعال. لن يؤدي إدخال هذا النظام إلى تقليل عدد الحوادث التي يحتاج المطورون إلى التحقيق فيها بشكل كبير فحسب، بل سيؤدي أيضًا إلى تحسين كفاءة البنية التحتية لـ Meta. من خلال الكشف عن التراجعات الصغيرة، يساعد FBDetect Meta على تجنب إهدار الموارد على ما يقرب من 4000 خادم سنويًا.
في المؤسسات الكبيرة مثل Meta التي تحتوي على ملايين الخوادم، يعد اكتشاف تراجع الأداء أمرًا مهمًا بشكل خاص. بفضل إمكانات المراقبة المتقدمة، لا يعمل FBDetect على تحسين معدل تحديد التراجعات البسيطة فحسب، بل يوفر أيضًا للمطورين طرقًا فعالة لتحليل السبب الجذري للمساعدة في حل المشكلات المحتملة في الوقت المناسب، وبالتالي تعزيز التشغيل الفعال للبنية التحتية بأكملها.
مدخل الورق: https://tangchq74.github.io/FBDetect-SOSP24.pdf
توفر الحالات الناجحة لبرنامج FBDetect تجربة قيمة للمؤسسات الكبيرة وتوفر اتجاهات جديدة لتطوير أنظمة مراقبة الأداء المستقبلية. إن الاستخدام الفعال للموارد وقدرات الكشف عن الانحدار الدقيقة تستحق المرجعية والتعلم من قبل الصناعة. ونأمل أن تظهر المزيد من التقنيات المبتكرة مثل هذه لمساعدة المؤسسات على إدارة البنية التحتية السحابية وتحسينها بشكل أفضل.