Dalam infrastruktur awan besar, bahkan sedikit degradasi kinerja dapat menyebabkan limbah sumber daya yang sangat besar. Untuk menyelesaikan masalah ini, Meta mengembangkan FBDetect, sebuah sistem yang dapat mendeteksi regresi kinerja yang sangat kecil. Simpan banyak sumber daya server setiap tahun. Artikel ini akan memperkenalkan secara rinci prinsip kerja, inti teknis dan efek aplikasi praktis dari fbDetect.
Bahkan sedikit penurunan kinerja dapat menyebabkan limbah sumber daya yang signifikan dalam pengelolaan infrastruktur cloud besar. Misalnya, di perusahaan seperti Meta, pengurangan 0,05% dalam kecepatan operasi suatu aplikasi mungkin tampak sepele, tetapi dengan jutaan server berjalan pada saat yang sama, penundaan kecil ini dapat menumpuk menjadi pemborosan ribuan server. Oleh karena itu, ini adalah tantangan besar bagi meta untuk menemukan dan menyelesaikan regresi kinerja kecil ini tepat waktu.
Untuk mengatasi masalah ini, Meta AI meluncurkan FBDetect, sistem deteksi regresi kinerja untuk lingkungan produksi yang dapat menangkap regresi kinerja minimal, bahkan serendah 0,005%. FBDetect mampu memantau sekitar 800.000 deret waktu, mencakup beberapa metrik seperti throughput, latensi, CPU dan penggunaan memori, yang melibatkan ratusan layanan dan jutaan server. Dengan mengadopsi teknologi inovatif seperti Stack Trace Sampling di seluruh cluster server, FBDetect mampu menangkap perbedaan kinerja tingkat subrutin yang halus.
FBDetect berfokus pada analisis kinerja tingkat subrutin, yang mengurangi kesulitan deteksi dari 0,05% regresi level aplikasi menjadi perubahan tingkat subrutin yang lebih mudah dikenali. Pendekatan ini secara signifikan mengurangi kebisingan, membuat perubahan pelacakan lebih praktis.
Inti teknis FBDetect mencakup tiga aspek utama. Pertama, ini mengurangi varian data kinerja melalui deteksi regresi tingkat subrutin, sehingga regresi kecil juga dapat diidentifikasi dalam waktu. Kedua, sistem akan melakukan pengambilan sampel jejak stack pada seluruh cluster server, secara akurat mengukur kinerja masing-masing subrutin, mirip dengan melakukan analisis kinerja di lingkungan skala besar. Akhirnya, untuk setiap regresi yang terdeteksi, FBDetect melakukan analisis akar penyebab untuk menentukan apakah regresi disebabkan oleh masalah sementara, perubahan biaya, atau perubahan kode aktual.
Setelah tujuh tahun pengujian lingkungan produksi aktual, FBDetect memiliki kemampuan anti-interferensi yang kuat dan secara efektif dapat menyaring sinyal regresi palsu. Pengenalan sistem ini tidak hanya secara signifikan mengurangi jumlah peristiwa yang perlu diselidiki pengembang, tetapi juga meningkatkan efisiensi infrastruktur meta. Dengan regresi kecil yang terdeteksi, FBDetect membantu meta menghindari limbah sumber daya pada sekitar 4.000 server setiap tahun.
Di perusahaan besar seperti meta dengan jutaan server, deteksi regresi kinerja sangat penting. Dengan kemampuan pemantauan canggihnya, FBDetect tidak hanya meningkatkan tingkat pengakuan regresi mikro, tetapi juga memberi pengembang metode analisis akar penyebab yang efektif, yang membantu menyelesaikan masalah potensial secara tepat waktu dan mempromosikan operasi yang efisien dari seluruh infrastruktur.
Pintu masuk kertas: https://tangchq74.github.io/fbdetect-sosp24.pdf
Poin -Poin Kunci:
FBDetect dapat memantau regresi kinerja kecil, bahkan serendah 0,005%, sangat meningkatkan akurasi deteksi.
Sistem ini mencakup sekitar 800.000 deret waktu, melibatkan banyak metrik kinerja, dan mampu melakukan analisis yang akurat di lingkungan skala besar.
Setelah tujuh tahun aplikasi praktis, FBDetect telah membantu Meta menghindari pemborosan sumber daya sekitar 4.000 server per tahun, meningkatkan efisiensi keseluruhan infrastruktur.
Singkatnya, FBDetect menyediakan infrastruktur cloud skala besar Meta dengan deteksi regresi kinerja yang efisien dan kemampuan analisis, secara efektif mengurangi limbah sumber daya, meningkatkan stabilitas sistem dan efisiensi operasi. Penerapan sistem ini dalam manajemen sumber daya perusahaan besar menyediakan ide -ide baru untuk meningkatkan pemanfaatan sumber daya dan mengurangi biaya operasi.