대규모 클라우드 인프라에서는 약간의 성능 저하조차도 큰 자원 폐기물을 유발할 수 있습니다. 이 문제를 해결하기 위해 Meta는 매우 작은 성능 회귀 분석을 감지 할 수있는 시스템 인 FBDetect를 개발했습니다. 매년 많은 서버 리소스를 저장하십시오. 이 기사는 FBDetect의 작업 원리, 기술 핵심 및 실제 응용 효과를 자세하게 소개합니다.
약간의 성능 감소조차도 큰 클라우드 인프라 관리에서 상당한 자원 폐기물로 이어질 수 있습니다. 예를 들어, Meta와 같은 회사에서는 응용 프로그램의 운영 속도가 0.05% 감소하면 사소한 것처럼 보일 수 있지만 동시에 수백만 개의 서버가 실행되면이 작은 지연이 수천 개의 서버를 낭비로 축적 될 수 있습니다. 따라서 메타가 이러한 작은 성능 회귀를 적시에 발견하고 해결하는 것은 큰 도전입니다.
이 문제를 해결하기 위해 Meta AI는 0.005%의 낮은 성능 회귀를 최소화 할 수있는 생산 환경을위한 성능 회귀 감지 시스템 인 FBDetect를 시작했습니다. FBDetect는 수백 개의 서비스 및 수백만 개의 서버가 포함 된 처리량, 대기 시간, CPU 및 메모리 사용과 같은 여러 지표를 다루는 약 80 만 시계열을 모니터링 할 수 있습니다. FBDetect는 전체 서버 클러스터에서 스택 트레이스 샘플링과 같은 혁신적인 기술을 채택함으로써 미묘한 서브 루틴 수준의 성능 차이를 캡처 할 수 있습니다.
FBDetect는 서브 루틴 수준의 성능 분석에 중점을두고, 이로 인해 5.05%의 응용 수준 회귀에서 더 쉽게 인식 가능한 서브 루틴 수준 변화로 탐지 난이도를 줄입니다. 이 접근법은 노이즈를 크게 줄여서 추적 변화를보다 실용적으로 만듭니다.
FBDetect의 기술 핵심에는 세 가지 주요 측면이 포함됩니다. 먼저, 서브 루틴 수준 회귀 감지를 통해 성능 데이터의 분산을 줄이므로 작은 회귀가 제 시간에도 식별 될 수 있습니다. 둘째, 시스템은 전체 서버 클러스터에서 스택 추적 샘플링을 수행하여 대규모 환경에서 성능 분석을 수행하는 것과 유사하게 각 서브 루틴의 성능을 정확하게 측정합니다. 마지막으로, 각각의 감지 된 회귀에 대해 FBDetect는 근본 원인 분석을 수행하여 회귀가 일시적인 문제, 비용 변경 또는 실제 코드 변경으로 인한 것인지 여부를 결정합니다.
7 년간의 실제 생산 환경 테스트 후 FBDetect는 강력한 간섭 기능을 가지고 있으며 잘못된 회귀 신호를 효과적으로 걸러 낼 수 있습니다. 이 시스템의 도입은 개발자가 조사해야 할 이벤트의 수를 크게 줄일뿐만 아니라 메타 인프라의 효율성을 향상시킵니다. FBDETECT는 감지 된 작은 회귀를 통해 매년 약 4,000 개의 서버에서 자원 폐기물을 피하는 데 도움이됩니다.
수백만 개의 서버가있는 Meta와 같은 대기업에서는 성능 회귀 감지가 특히 중요합니다. 고급 모니터링 기능을 통해 FBDetect는 마이크로 회귀의 인식 속도를 향상시킬뿐만 아니라 개발자에게 효과적인 근본 원인 분석 방법을 제공하여 잠재적 인 문제를 적시에 해결하고 전체 인프라의 효율적인 운영을 촉진하는 데 도움이됩니다.
종이 입구 : https://tangchq74.github.io/fbdetect-sosc24.pdf
핵심 사항 :
FBDetect는 0.005%의 낮은 소규모 성능 회귀를 모니터링하여 탐지 정확도를 크게 향상시킬 수 있습니다.
이 시스템은 약 80 만 개의 시계열을 다루고 여러 성능 지표를 포함하며 대규모 환경에서 정확한 분석을 수행 할 수 있습니다.
7 년간의 실제 적용 후 FBDetect는 META가 연간 약 4,000 개의 서버의 자원 폐기물을 피함으로써 인프라의 전반적인 효율성을 향상시키는 데 도움이되었습니다.
요컨대, FBDetect는 효율적인 성능 회귀 감지 및 분석 기능을 갖춘 Meta의 대규모 클라우드 인프라를 제공하여 자원 폐기물을 효과적으로 줄이고 시스템 안정성을 향상시키고 운영 효율성을 제공합니다. 대기업의 자원 관리 에이 시스템을 적용하면 자원 활용을 개선하고 운영 비용을 줄이기위한 새로운 아이디어가 제공됩니다.