大規模なクラウドインフラストラクチャでは、わずかなパフォーマンスの劣化でさえ大きな資源無駄を引き起こす可能性があります。この問題を解決するために、Metaは非常に小さなパフォーマンス回帰を検出できるシステムであるFBDETECTを開発しました。毎年多くのサーバーリソースを保存してください。この記事では、FBDETECTの作業原則、技術コア、実用的なアプリケーション効果を詳細に紹介します。
わずかなパフォーマンスの低下でさえ、大規模なクラウドインフラストラクチャの管理において大きなリソース廃棄物につながる可能性があります。たとえば、Metaのような会社では、アプリケーションの操作速度が0.05%減少すると些細なことがあるように思えるかもしれませんが、数百万のサーバーが同時に実行されているため、この小さな遅延は数千のサーバーの無駄に蓄積する可能性があります。したがって、メタがこれらの小さなパフォーマンス回帰をタイムリーに発見して解決することは大きな課題です。
この問題を解決するために、Meta AIは、0.005%の低い場合でも、最小限のパフォーマンス回帰をキャプチャできる生産環境向けのパフォーマンス回帰検出システムであるFBDETECTを起動しました。 FBDETECTは、約800,000の時系列を監視することができ、スループット、レイテンシ、CPU、メモリ使用量などの複数のメトリックをカバーし、数百のサービスと数百万のサーバーが関与しています。 Stack Traceサンプリングなどの革新的なテクノロジーをサーバークラスター全体に採用することにより、FBDETECTは微妙なサブルーチンレベルのパフォーマンスの違いをキャプチャできます。
FBDETECTは、サブルーチンレベルのパフォーマンス分析に焦点を当てており、検出難易度が0.05%のアプリケーションレベルの回帰から、より簡単に認識できるサブルーチンレベルの変化に減少します。このアプローチはノイズを大幅に削減し、追跡の変更をより実用的にします。
FBDETECTの技術コアには、3つの主要な側面が含まれています。まず、サブルーチンレベルの回帰検出を介してパフォーマンスデータの分散を減らし、小さな回帰も時間内に識別できるようにします。第二に、システムはサーバークラスター全体でスタックトレースサンプリングを実行し、大規模な環境でパフォーマンス分析を実行するのと同様に、各サブルーチンのパフォーマンスを正確に測定します。最後に、検出された各回帰について、FBDETECTは根本原因分析を実行して、回帰が一時的な問題、コストの変更、または実際のコード変更によって引き起こされるかどうかを判断します。
7年間の実際の生産環境テストの後、FBDETECTは強力な干渉能力を持ち、誤った回帰信号を効果的に除外できます。このシステムを導入すると、開発者が調査する必要があるイベントの数を大幅に削減するだけでなく、メタインフラストラクチャの効率を向上させます。検出された小規模な回帰により、FBDETECTは毎年約4,000のサーバーのリソース廃棄物をメタの回避を支援します。
数百万のサーバーを備えたメタのような大企業では、パフォーマンス回帰検出が特に重要です。高度な監視機能により、FBDETECTはマイクロ回帰の認識率を改善するだけでなく、開発者に効果的な根本原因分析方法を提供し、潜在的な問題をタイムリーに解決し、インフラストラクチャ全体の効率的な動作を促進します。
紙の入り口:https://tangchq74.github.io/fbdetect-sosp24.pdf
キーポイント:
FBDETECTは、0.005%という低いパフォーマンス回帰を監視でき、検出の精度を大幅に改善します。
このシステムは、約800,000の時系列をカバーし、複数のパフォーマンスメトリックを伴い、大規模な環境で正確な分析を実行できます。
7年間の実用的なアプリケーションの後、FBDETECTは年間約4,000のサーバーのリソース廃棄物を回避するのに役立ち、インフラストラクチャの全体的な効率を改善しました。
要するに、FBDETECTは、効率的なパフォーマンス回帰検出機能を備えたメタの大規模なクラウドインフラストラクチャを提供し、リソースの廃棄物を効果的に削減し、システムの安定性と運用効率を改善します。大企業のリソース管理におけるこのシステムの適用は、リソースの利用を改善し、運用コストを削減するための新しいアイデアを提供します。