ในโครงสร้างพื้นฐานคลาวด์ขนาดใหญ่แม้แต่การลดลงของประสิทธิภาพเล็กน้อยก็อาจทำให้ทรัพยากรเสียไปได้ เพื่อแก้ปัญหานี้ Meta ได้พัฒนา FBDETECT ซึ่งเป็นระบบที่สามารถตรวจจับการถดถอยประสิทธิภาพที่เล็กมาก บันทึกทรัพยากรเซิร์ฟเวอร์จำนวนมากทุกปี บทความนี้จะแนะนำรายละเอียดเกี่ยวกับหลักการทำงานแกนกลางและเอฟเฟกต์แอปพลิเคชันที่ใช้งานได้จริงของ FBDetect
แม้แต่การลดลงเล็กน้อยก็สามารถนำไปสู่การสูญเสียทรัพยากรที่สำคัญในการจัดการโครงสร้างพื้นฐานคลาวด์ขนาดใหญ่ ตัวอย่างเช่นใน บริษัท เช่น Meta การลดความเร็วในการดำเนินงาน 0.05% ของแอปพลิเคชันอาจดูไม่สำคัญ แต่ด้วยเซิร์ฟเวอร์นับล้านที่ทำงานในเวลาเดียวกันความล่าช้าเล็ก ๆ นี้สามารถสะสมเป็นเซิร์ฟเวอร์นับพัน ดังนั้นจึงเป็นความท้าทายที่ยิ่งใหญ่สำหรับเมตาที่จะค้นพบและแก้ไขการถดถอยประสิทธิภาพเล็ก ๆ เหล่านี้ในเวลาที่เหมาะสม
เพื่อแก้ปัญหานี้ Meta AI ได้เปิดตัว FBDETECT ซึ่งเป็นระบบตรวจจับการถดถอยประสิทธิภาพสำหรับสภาพแวดล้อมการผลิตที่สามารถจับการถดถอยประสิทธิภาพที่น้อยที่สุดแม้จะต่ำถึง 0.005% FBDETECT มีความสามารถในการตรวจสอบอนุกรมเวลาประมาณ 800,000 ชุดครอบคลุมหลายตัวชี้วัดเช่นปริมาณงานเวลาแฝง CPU และการใช้หน่วยความจำที่เกี่ยวข้องกับบริการหลายร้อยรายการและเซิร์ฟเวอร์นับล้าน ด้วยการนำเทคโนโลยีที่เป็นนวัตกรรมมาใช้เช่นการสุ่มตัวอย่างสแต็กการติดตามทั่วทั้งคลัสเตอร์เซิร์ฟเวอร์ FBDetect สามารถจับภาพความแตกต่างของประสิทธิภาพระดับย่อยที่ละเอียดอ่อนได้
FBDETECT มุ่งเน้นไปที่การวิเคราะห์ประสิทธิภาพระดับรูทีนย่อยซึ่งช่วยลดความยากลำบากในการตรวจจับจากการถดถอยระดับแอปพลิเคชัน 0.05% ไปสู่การเปลี่ยนแปลงระดับรูทีนย่อยที่จดจำได้ง่ายขึ้น วิธีนี้ช่วยลดเสียงรบกวนได้อย่างมากทำให้การติดตามเปลี่ยนแปลงได้มากขึ้น
แกนกลางทางเทคนิคของ FBDETECT รวมถึงสามด้านหลัก ก่อนอื่นจะช่วยลดความแปรปรวนของข้อมูลประสิทธิภาพผ่านการตรวจจับการถดถอยระดับรูทีนย่อยเพื่อให้สามารถระบุการถดถอยขนาดเล็กได้ในเวลา ประการที่สองระบบจะทำการสุ่มตัวอย่างสแต็กติดตามบนคลัสเตอร์เซิร์ฟเวอร์ทั้งหมดโดยวัดประสิทธิภาพของรูทีนย่อยแต่ละรายการคล้ายกับการวิเคราะห์ประสิทธิภาพในสภาพแวดล้อมขนาดใหญ่ ในที่สุดสำหรับการถดถอยที่ตรวจพบแต่ละครั้ง FBDETECT จะทำการวิเคราะห์สาเหตุที่แท้จริงเพื่อตรวจสอบว่าการถดถอยเกิดจากปัญหาชั่วคราวการเปลี่ยนแปลงต้นทุนหรือการเปลี่ยนแปลงรหัสจริง
หลังจากเจ็ดปีของการทดสอบสภาพแวดล้อมการผลิตจริง FBDETECT มีความสามารถในการต่อต้านการแทรกแซงที่แข็งแกร่งและสามารถกรองสัญญาณการถดถอยที่ผิดพลาดได้อย่างมีประสิทธิภาพ การแนะนำของระบบนี้ไม่เพียง แต่ลดจำนวนเหตุการณ์ที่นักพัฒนาเหตุการณ์จำเป็นต้องตรวจสอบ แต่ยังช่วยปรับปรุงประสิทธิภาพของโครงสร้างพื้นฐานเมตา ด้วยการถดถอยขนาดเล็กที่ตรวจพบ FBDETECT ช่วยให้เมตาหลีกเลี่ยงการสูญเสียทรัพยากรบนเซิร์ฟเวอร์ประมาณ 4,000 เซิร์ฟเวอร์ในแต่ละปี
ในองค์กรขนาดใหญ่เช่นเมตาที่มีเซิร์ฟเวอร์นับล้านการตรวจจับการถดถอยประสิทธิภาพมีความสำคัญอย่างยิ่ง ด้วยความสามารถในการตรวจสอบขั้นสูง FBDETECT ไม่เพียง แต่ปรับปรุงอัตราการรับรู้ของการถดถอยขนาดเล็กเท่านั้น แต่ยังช่วยให้นักพัฒนามีวิธีการวิเคราะห์สาเหตุที่มีประสิทธิภาพซึ่งช่วยแก้ปัญหาที่อาจเกิดขึ้นในเวลาที่เหมาะสมและส่งเสริมการทำงานที่มีประสิทธิภาพของโครงสร้างพื้นฐานทั้งหมด
ทางเข้ากระดาษ: https://tangchq74.github.io/fbdetect-sosp24.pdf
ประเด็นสำคัญ:
FBDETECT สามารถตรวจสอบการถดถอยประสิทธิภาพเล็ก ๆ น้อย ๆ แม้จะต่ำถึง 0.005%แต่ปรับปรุงความแม่นยำในการตรวจจับอย่างมาก
ระบบครอบคลุมอนุกรมเวลาประมาณ 800,000 ชุดเกี่ยวข้องกับการวัดประสิทธิภาพหลายตัวและสามารถทำการวิเคราะห์ที่แม่นยำในสภาพแวดล้อมขนาดใหญ่
หลังจากการใช้งานจริงเจ็ดปี FBDETECT ได้ช่วยอภิมานหลีกเลี่ยงการสูญเสียทรัพยากรประมาณ 4,000 เซิร์ฟเวอร์ต่อปีปรับปรุงประสิทธิภาพโดยรวมของโครงสร้างพื้นฐาน
ในระยะสั้น FBDETECT ให้โครงสร้างพื้นฐานคลาวด์ขนาดใหญ่ของ Meta พร้อมความสามารถในการตรวจจับการถดถอยและการวิเคราะห์ประสิทธิภาพที่มีประสิทธิภาพลดการสูญเสียทรัพยากรอย่างมีประสิทธิภาพการปรับปรุงความมั่นคงของระบบและประสิทธิภาพในการดำเนินงาน การประยุกต์ใช้ระบบนี้ในการจัดการทรัพยากรขององค์กรขนาดใหญ่ให้แนวคิดใหม่สำหรับการปรับปรุงการใช้ทรัพยากรและลดต้นทุนการดำเนินงาน