Les ingénieurs en fiabilité des sites (SRE) se situent à l’intersection de l’ingénierie logicielle et de l’ingénierie des systèmes. Bien qu'il existe des permutations et des combinaisons potentiellement infinies dans la manière dont les composants d'infrastructure et logiciels peuvent être assemblés pour atteindre un objectif, se concentrer sur les compétences fondamentales permet aux SRE de travailler avec des systèmes et des logiciels complexes, que ces systèmes soient propriétaires, tiers ou ouverts. , exécutés sur une infrastructure cloud/sur site, etc. En particulier, il est important d'acquérir une compréhension approfondie de la manière dont ces domaines de systèmes et d'infrastructures sont liés les uns aux autres et interagissent les uns avec les autres. La combinaison de compétences en ingénierie logicielle et système est rare et se construit généralement au fil du temps avec une exposition à une grande variété d’infrastructures, de systèmes et de logiciels.
Les SRE font appel à des pratiques d'ingénierie pour maintenir le site en activité. Chaque système distribué est une agglomération de nombreux composants. Les SRE valident les exigences métier, les convertissent en SLA pour chacun des composants qui constituent le système distribué, surveillent et mesurent le respect des SLA, réorganisent ou évoluent pour atténuer ou éviter les violations des SLA, ajoutent ces apprentissages comme retour d'information sur de nouveaux systèmes ou projets. et ainsi réduire le travail opérationnel. Les SRE jouent donc un rôle essentiel dès la conception du système.
Début 2019, nous avons commencé à visiter des campus à travers l'Inde pour recruter les esprits les plus talentueux et les plus brillants afin de garantir que LinkedIn et tous les services qui composent sa pile technologique complexe soient toujours disponibles pour tous. Cette fonction critique chez LinkedIn relève de la compétence de l'équipe Site Engineering et des Site Reliability Engineers (SRE) qui sont des ingénieurs logiciels spécialisés dans la fiabilité.
Au fur et à mesure que nous poursuivions ce voyage, nous avons commencé à recevoir de nombreuses questions de la part de ces campus sur ce qu'implique exactement le rôle d'ingénierie de fiabilité du site ? Et comment quelqu’un peut-il acquérir les compétences et les disciplines nécessaires pour devenir un bon ingénieur en fiabilité de site ? Quelques mois plus tard, quelques-uns de ces étudiants du campus avaient rejoint LinkedIn en tant que stagiaires ou ingénieurs à temps plein pour faire partie de l'équipe d'ingénierie du site ; nous avons également eu quelques recrues latérales qui ont rejoint notre organisation et qui n'étaient pas issues du milieu SRE traditionnel. C'est à ce moment-là que quelques-uns d'entre nous se sont réunis et ont commencé à réfléchir à la manière dont nous pourrions intégrer de nouveaux ingénieurs diplômés dans l'équipe d'ingénierie de site.
Il existe très peu de ressources pour guider quelqu'un sur les compétences de base que l'on doit acquérir en tant que SRE débutant. En raison du manque de ces ressources, nous avons estimé que les individus ont du mal à accéder à des postes vacants dans l'industrie. Nous avons créé la School Of SRE comme point de départ pour toute personne souhaitant bâtir sa carrière en tant que SRE. Dans ce cours, nous nous concentrons sur le développement de solides compétences fondamentales. Le cours est structuré de manière à fournir davantage d'exemples concrets et à expliquer comment l'apprentissage de chacun de ces sujets peut jouer un rôle important dans les responsabilités professionnelles quotidiennes d'un SRE. Actuellement, nous couvrons les sujets suivants dans le cadre de la School Of SRE :
Niveau 101
Niveau 102
Nous pensons que l'apprentissage continu vous aidera à acquérir des connaissances et des compétences plus approfondies afin d'élargir vos compétences. Chaque module comporte des références ajoutées qui pourraient servir de guide pour un apprentissage ultérieur. Nous espérons qu'en suivant ces modules, nous serons en mesure d'acquérir les compétences essentielles requises pour un ingénieur en fiabilité de site.
Chez LinkedIn, nous utilisons ce programme pour intégrer nos recrues non traditionnelles et nos nouveaux diplômés universitaires dans le rôle SRE. Nous avons eu plusieurs séries d'expériences d'intégration réussies avec de nouveaux employés et le cours les a aidés à être productifs en très peu de temps. Cela nous a motivés à ouvrir le contenu pour aider d'autres organisations à intégrer de nouveaux ingénieurs dans le rôle et à fournir des conseils aux personnes en herbe pour accéder à ce poste. Nous sommes conscients que le contenu initial que nous avons créé n’est qu’un point de départ et nous espérons que la communauté pourra nous aider à affiner et à élargir le contenu. Consultez le guide de contribution pour commencer.