Bei einer großen Cloud -Infrastruktur kann selbst eine geringfügige Leistungsverschlechterung enorme Ressourcenabfälle verursachen. Um dieses Problem zu lösen, entwickelte Meta FBDETECT, ein System, das extrem kleine Leistungsregressionen erkennen kann. Sparen Sie jedes Jahr viele Serverressourcen. In diesem Artikel wird ausführlich das Arbeitsprinzip, die technischen Kern und die praktischen Anwendungseffekte von FBDETECT vorgestellt.
Selbst ein geringfügiger Leistungsabfall kann zu erheblichen Ressourcenabfällen bei der Behandlung großer Cloud -Infrastruktur führen. Beispielsweise mag in einem Unternehmen wie Meta eine Reduzierung der Betriebsgeschwindigkeit einer Anwendung um 0,05% trivial erscheinen, aber mit Millionen von Servern, die gleichzeitig laufen, kann sich diese winzige Verzögerung in Verschwendung von Tausenden von Servern ansammeln. Daher ist es eine große Herausforderung für Meta, diese winzigen Leistungsregressionen rechtzeitig zu entdecken und zu lösen.
Um dieses Problem zu lösen, startete Meta AI FBDETECT, ein Leistungsregressionserkennungssystem für Produktionsumgebungen, das eine minimale Leistungsregression erfassen kann, auch bis zu 0,005%. FBDETECT kann ungefähr 800.000 Zeitreihen überwachen und mehrere Metriken wie Durchsatz, Latenz, CPU und Speicherverbrauch abdecken, an denen Hunderte von Diensten und Millionen von Servern beteiligt sind. Durch die Einführung innovativer Technologien wie Stack Trace-Stichproben über den gesamten Servercluster kann FBDECTECT subtile Leistungsunterschiede auf Subroutine-Ebene erfassen.
FBDETECT konzentriert sich auf die Leistungsanalyse der Unterproutine -Ebene, wodurch die Erkennungsschwierigkeit von 0,05% der Regression des Anwendungsniveaus auf eine leichter erkennbare Veränderung des Unterproutinenniveaus reduziert wird. Dieser Ansatz reduziert das Geräusch erheblich und macht die Verfolgung von Änderungen praktischer.
Der technische Kern von fBDETECT umfasst drei Hauptaspekte. Erstens reduziert es die Varianz der Leistungsdaten durch Regressionserkennung auf Unterroutine, so dass auch kleine Regressionen rechtzeitig identifiziert werden können. Zweitens führt das System eine Stapel-Trace-Stichprobe im gesamten Servercluster durch und misst die Leistung jeder Unterroutine genau, ähnlich der Durchführung der Leistungsanalyse in einer groß angelegten Umgebung. Für jede erkannte Regression führt FBDETECT schließlich eine Ursachenanalyse durch, um festzustellen, ob die Regression durch ein vorübergehendes Problem, eine Kostenänderung oder eine tatsächliche Codeänderung verursacht wird.
Nach sieben Jahren tatsächlicher Produktionsumgebungstests verfügt FBDETECT starke Anti-Interferenz-Funktionen und kann falsche Regressionssignale effektiv herausfiltern. Die Einführung dieses Systems reduziert nicht nur die Anzahl der Ereignisse, die Entwickler für die Untersuchung benötigen, sondern verbessert auch die Effizienz der Meta -Infrastruktur. Mit der erkannten kleinen Regression hilft FBDETECT Meta, Ressourcenabfälle auf etwa 4.000 Servern pro Jahr zu vermeiden.
In großen Unternehmen wie Meta mit Millionen von Servern ist die Erkennung von Leistungsregressionen besonders wichtig. Mit seinen fortschrittlichen Überwachungsfunktionen verbessert FBDETECT nicht nur die Erkennungsrate von Mikro -Regressionen, sondern bietet Entwicklern auch effektive Ursachenanalysemethoden, wodurch potenzielle Probleme rechtzeitig gelöst und den effizienten Betrieb der gesamten Infrastruktur fördert.
Papiereingang: https://tangchq74.github.io/fbdetect-osp24.pdf
Schlüsselpunkte:
FBDETECT kann winzige Leistungsregressionen überwachen, auch bis zu 0,005%und die Erkennungsgenauigkeit erheblich verbessert.
Das System deckt ungefähr 800.000 Zeitreihen ab, umfasst mehrere Leistungsmetriken und kann eine genaue Analyse in großen Umgebungen durchführen.
Nach sieben Jahren praktischer Anwendung hat FBDETECT Meta geholfen, Ressourcenverschwendung von etwa 4.000 Servern pro Jahr zu vermeiden, wodurch die Gesamteffizienz der Infrastruktur verbessert wird.
Kurz gesagt, FBDECTECT bietet die groß angelegte Cloud-Infrastruktur von Meta mit effizienten Leistungsfunktionen und Analysefunktionen, wodurch die Ressourcenabfälle effektiv reduziert werden, die Systemstabilität und die Operationseffizienz verbessert werden. Die Anwendung dieses Systems im Ressourcenmanagement großer Unternehmen bietet neue Ideen zur Verbesserung der Ressourcennutzung und zur Reduzierung der Betriebskosten.