站點可靠性工程師 (SRE) 處於軟體工程和系統工程的交叉點。雖然基礎設施和軟體元件如何組合在一起以實現目標的方式可能存在無限的排列和組合,但專注於基礎技能使SRE 能夠使用複雜的系統和軟體,無論這些系統是否是專有的、第三方的、開放的系統、在雲端/本地基礎架構上運作等。軟體和系統工程技能的結合很少見,通常是隨著時間的推移,接觸各種基礎設施、系統和軟體而建立的。
SRE 引入工程實踐來保持網站正常運作。每個分散式系統都是許多元件的聚合。 SRE 驗證業務需求,將其轉換為構成分散式系統的每個組件的SLA,監控和衡量對SLA 的遵守情況,重新架構或擴展以減輕或避免SLA 違規,將這些知識添加為新系統或項目的反饋從而減少操作勞累。因此,SRE 從系統設計的第 0 天起就發揮著至關重要的作用。
2019 年初,我們開始走訪印度各地的校園,招募最優秀、最聰明的人才,以確保每個人都能隨時使用 LinkedIn 及其複雜技術堆疊的所有服務。 LinkedIn 的這項關鍵職能屬於網站工程團隊和網站可靠性工程師 (SRE) 的職責範圍,他們是專門研究可靠性的軟體工程師。
當我們繼續這趟旅程時,我們開始從這些校園收到很多問題,關於站點可靠性工程角色到底需要什麼?而且,如何學習成為成功的站點可靠性工程師所需的技能和學科?幾個月後,其中一些校園學生以實習生或全職工程師的身份加入 LinkedIn,成為站點工程團隊的一員;我們還有一些橫向員工加入了我們的組織,他們不是來自傳統的 SRE 背景。就在那時,我們中的一些人聚在一起,開始思考如何將新畢業的工程師加入現場工程團隊。
指導新手 SRE 必須掌握的基本技能的資源很少。由於缺乏這些資源,我們認為個人很難獲得該行業的空缺職位。我們創建了 SRE 學院,作為任何想要發展 SRE 職業生涯的人的起點。在本課程中,我們專注於培養強大的基礎技能。本課程的結構旨在提供更多現實生活中的範例,以及學習每個主題如何在 SRE 的日常工作職責中發揮重要作用。目前,我們的SRE學院正在涵蓋以下主題:
101級
102級
我們相信持續學習將有助於獲得更深入的知識和能力,以擴展您的技能組合,每個模組都添加了參考資料,可以作為進一步學習的指南。我們希望透過學習這些模組,我們應該能夠培養站點可靠性工程師所需的基本技能。
在 LinkedIn,我們使用此課程來引導我們的非傳統員工和新大學畢業生擔任 SRE 角色。我們與新員工進行了多輪成功的入職體驗,該課程幫助他們在很短的時間內提高了工作效率。這促使我們開源內容,以幫助其他組織幫助新工程師入職,並為有抱負的個人進入該職位提供指導。我們意識到我們創建的初始內容只是一個起點,我們希望社群能夠在完善和擴展內容的過程中提供幫助。查看貢獻指南以開始使用。