途游鄒軼:中小公司的運維怎么做?

途游鄒軼:中小公司的運維怎么做?

通過采訪和約稿的方式,請運維領域老炮輸出深刻洞見,共同碰撞,以期形成一些先進的共識,推動行業更好得前進。

這一期我們邀請到的是鄒軼,途游游戲運維總監,鄒總經常戲稱自己是世界500萬強企業的運維代表,可見內心中是覺得中小公司的運維建設思路和大型企業是有差別的,今天我們帶著幾個問題,來請鄒總分享一下他的中小公司研運一體化之路。

這里是接地氣、有高度的《???運維百家講壇??》第 6 期,開講!

問題預覽

  • 途游是游戲公司,您覺得游戲運維有哪些獨特性?面臨的最大運維挑戰是什么?您又是如何解決這些挑戰的?
  • 游戲運維的人才技能是什么樣子的,如果想在游戲運維方向發展,您對職業路徑規劃上有沒有什么建議?
  • 中型公司的運維團隊通常不會很大,您是如何對這有限的人力排兵布陣的,有沒有什么心得可以分享給大家?
  • 您是否會遇到因為團隊人才水平不行,導致自己的想法落地慢,落地難的問題,您是如何解決的?
  • 您說您特別認同《運維的未來是平臺工程》文章中的觀點,您的團隊也是一個產研式的全功能組織,想請您介紹一下:對于業務研發,相比直接使用云廠商提供的平臺產品,您這個團隊帶來的Delta增益是什么?
  • 您經常說成本節省要硬橋硬馬,節省了大量成本,公司給發個獎狀,說明這個FinOps的項目大概率是在自嗨,在云上、云下Infra建設上,您的團隊為公司帶來了巨額成本節省,而且得到了公司的物質獎勵,能否分享一下相關的心得?
  • 運維團隊一直是站在公司業務的后面,離業務的距離相對遠,對如何更好的支持業務,或如何說明運維對業務的價值這個點,您有什么建議?

采訪實錄

問:途游是游戲公司,您覺得游戲運維有哪些獨特性?面臨的最大運維挑戰是什么?您又是如何解決這些挑戰的?

整體游戲運維架構相對傳統互聯網業務來比較,相對簡單,但是單機可靠性要求比較高,運維日常工作,相對事務性的工作較多,比如開服合服等等。 面臨最大的運維挑戰,其實不是技術層面的,更多的是價值認可度層面的,怎么讓我們業務部門認可我們的價值,這個挑戰我相信也是整個運維賽道同仁們一致的挑戰。要去贏得業務部門的認可,提升運維團隊的價值,從我以及我團隊的實踐來總結,其實就是一句話:扎扎實實的做好服務,以業務部門/用戶為中心

問:游戲運維的人才技能是什么樣子的,如果想在游戲運維方向發展,您對職業路徑規劃上有沒有什么建議?

游戲運維的人才技能和傳統互聯網行業沒有太大的區別,對于運維這個賽道來說,認知比較低和缺乏體系的成長環境,是我們中小廠運維面臨的比較現實的問題,我們常年和機器底層打交道,很少去認真思考過,未來10年,15年后的發展,更多的是追逐熱點,追逐變化,很少去思考沉淀那些不變的內容,以及怎么去利用這些內容來做時間的朋友形成自己的競爭力。我個人建議中小廠的運維同學,還是要在理論方法論學習和技能提升兩手抓,用理論指導實踐,通過實踐完善自己對理論的理解。學習理論和方法這塊,我也提幾點建議:

  1. 持有開放的心態去學習,ITIL,SRE,lean,scrum,平臺工程,可觀測等等,不要糾結于門派之見,只要對自己有價值的內容,都可以去學習去吸收融合,比如ITIL抓住變更管理、故障管理、問題管理、持續服務改進,這幾個流程去學習并應用于實踐,其實就能解決好大部分運維問題。又比如對SRE的理念的學習,抓住SLO的理念,開展可靠性建設,引導業務部門與運維團隊建立一個可靠性目標共擔的協作模式。而在實踐的SLO落地的過程中,又可以引入可觀測性理念和方法,來加強自己對可觀測性能力的建設。
  2. 面向國外科技公司學習為主,面向國內大廠學習為輔,國外科技公司的理論和工程方法相對嚴謹和體系,不太受場景限制,可以學以致用,國內的大廠更多偏向于特殊場景的實踐,理論和工程方法抽象不夠,基本上都是萬億并發,千億流量的場景,其實和中小廠的運維沒啥關系,中小廠去深度對標學習,價值杠桿率不高

問:中型公司的運維團隊通常不會很大,您是如何對這有限的人力排兵布陣的,有沒有什么心得可以分享給大家?

有限的資源,往往容易激發創新,團隊規模可以不大,但是要保持精干、敏捷,換句話說就是你團隊要足夠能打,而且應對不確定性能力要強,要想達到這個效果,我個人總結了我們這5年的組織能力建設實踐:

  1. 人才結構要做深度優化,要引入專業產研人才,用產研驅動團隊價值輸出。目前途游的運維安全團隊,產研和傳統運維比例接近1:1。
  2. 研運一體化的組織模式去構建,要形成一支全職能,端到端的混合型團隊。目前的途游的運維安全團隊,有產品經理、研發負責人,前,后端工程師,服務運營工程師,運維工程師,IT工程師。
  3. 圍繞互信、目標一致、信息共享、去中心化去構建敏捷的文化氛圍。通過敏捷的文化氛圍,來形成一支能應對不確定性的敏捷組織。

關于敏捷組織的實踐,可以看我的分享:https://tuyoo.feishu.cn/docs/doccnFlAD2m7WnSpcLYxFJRImZb

問:您是否會遇到因為團隊人才水平不行,導致自己的想法落地慢,落地難的問題,您是如何解決的?

這個肯定會遇到,我們解決思路:

  1. 保持耐心,對團隊持續迭代,這個就和打牌一樣,你不能期望上手一手好牌,這個都得不斷的進出的換牌,最后把牌理順去贏得比賽。
  2. 對新人的標準是潛力要高于團隊現有70%的人員,不符合標準寧可不招聘,招人謹慎,對人的培養才會用心。
  3. 團隊負責人自己一定是團隊首席HR,要主動出擊去找人才,我最近4年在BOSS直聘上大概聊過接近兩萬人吧,看過的簡歷應該超過2萬多份,這個可能很難有中小公司的運維負責人會做到這點。
  4. 利用敏捷組織作為基礎支持,發揮集體智慧。

關于我團隊轉型實踐分享:https://tuyoo.feishu.cn/docx/doxcnGMuijglK6NdENYC2vD7KKh

問:您說您特別認同《運維的未來是平臺工程》文章中的觀點,您的團隊也是一個產研式的全功能組織,想請您介紹一下:對于業務研發,相比直接使用云廠商提供的平臺產品,您這個團隊帶來的Delta增益是什么?

在回答這個問題之前,我還是想闡述下我們對造輪子和外采服務的認知:

我們其實對外采還是自研,蠻開放的心態,也是蠻簡單的判斷,就是看ROI的投入產出比,標準化的,投入巨大的,自己搞不定的肯定是盡量用外部三方的服務或者產品來幫助我們解決問題,我們更關注的是如何服務好我們的業務部門,關注我們提供的服務結果和質量,不太關注這個能力是我們自己具備的還是三方的服務能力,只要能幫助我們提升服務質量和效率的,我們都非常開放的心態去吸收和融合。

再來回答這個產研團隊對我們的增益問題,每個公司都有它本身一些特性或者定制化場景需求,這些東西外來產品肯定不能完全覆蓋到位,所以這樣的一支端到端的團隊,其實是讓整個團隊有了解決一些非標問題的能力。這種能力其實非常關鍵,很大程度決定了團隊的價值實現。

另外再來說說我們對運維的未來是平臺工程的理解,我對平臺工程的理解有兩點關鍵要素:

  1. 平臺工程面向的對象是以業務部門為主,而不是運維為主
  2. 平臺工程提供的是自服務,平臺工程輸出的產品和工具一定是業務部門自服務為主

我們團隊轉型探索,就是主要按照這兩個要素來做的實踐,但是理論水平不夠,沒有清晰的去提出平臺工程的理念。我們游戲運維有一個蠻大的痛點就是瑣事很多,比如CDN的上傳發布,游戲的配置更新,例行起停服,都是游戲運維日常的事務,不可或缺,但是都是事務性的,價值很低,可能在我們游戲運維的常識里面,我們會想到做一些自動化的工具,去提升運維的人效,把運維從人肉或者寫腳本的狀態,變成WEBOPS狀態,這個感覺杠桿率還是太低,并沒有把運維釋放出來,所以在解決這些問題過程中,誕生了我對平臺工程理念的原始理解,目前我們游戲運維的日常事務性工作有50%都是項目組自服務,通過我們提供的工具,這在我們接觸平臺工程的理念后,發現是高度認知一致的。所以對運維的未來是平臺工程,我相信只要嘗過自服務的甜頭,吃過人肉運維的苦的同學,應該都會有很深的認同感。

問:您經常說成本節省要硬橋硬馬,節省了大量成本,公司給發個獎狀,說明這個FinOps的項目大概率是在自嗨,在云上、云下Infra建設上,您的團隊為公司帶來了巨額成本節省,而且得到了公司的物質獎勵,能否分享一下相關的心得?

對于FINOPS這件事,平時也和行業一些專家老師做過一些交流碰撞,結合我們團隊自己的實踐,我個人感覺FINOPS實踐落地難,難在改變老板的認知,目前行業還是偏技術實現或者理念碰撞階段,還停留在比誰更專業,更規范的階段,個人感覺不能影響到老板認知的FINOPS,基本都是無價值,或者價值極低,做和不做沒啥區別。對于FINOPS這個領域不過多評價,我們縮小到成本優化這件事來講,在我們團隊我沒有設定過成本優化的OKR,我們一直用精益的理念在指導開展工作,精益有一個核心的理念,一切不產生價值的都是浪費,持續消除浪費, 這樣在工作開展過程中,其實就不用搞運動式的成本優化。很多省了幾個億的成本優化,可能在老板眼里就是應該的,以前浪費太大了,現在只是消除浪費,這自然就不會得到價值認可。

成本優化實踐過程中我個人總結了幾點:

  1. 要用精益的理念去持續指導成本優化,而不是簡單的運動式降本增效。
  2. 要拉齊價值共識,要和相關部門比如總辦,財務等監管部門達成共識。
  3. 成本優化的計算模型不能太復雜,模型計算太復雜,很難去達成共識。
  4. 數據要統一按照財務口徑進行核對,不能我們從技術角度想當然。

編者按:鄒總做成本優化,具體節省多少錢是經過財務最終測算的,個人覺得很值得借鑒,很多公司的成本優化,都是自己測算的,缺乏公信力,老板較難有體感。

問:這是老問題了,運維團隊一直是站在公司業務的后面,離業務的距離相對遠,對如何更好的支持業務,或如何說明運維對業務的價值這個點,您有什么建議?

具體怎么去體現價值,我建議運維團隊要想體現價值,首先是要有服務意識,然后是要對服務體系進行建設,再就是保持耐心和持續改善,通過這個去形成一個正循環,從而把時間做朋友。

在這塊我簡單分享下我們團隊的服務體系建設指導綱要。我們以客戶為中心,構建安全、可靠、高效、低成本、可持續的服務。通過服務運營輸出價值,通過產品和工具落地服務運營,并持續改善。在這個指導綱要中,我們將團隊里的運維、產研和運營三個職能角色進行了深度融合。通過服務運營的輸出來把價值進行體現。很多時候,做技術的人往往不太容易意識到服務運營的重要性,我們常常聽到人們談論技術運營和產品運營,但很少有人談論服務運營。這與我們做技術出身的慣性認知有很大關系,更多的是站在自己專業領域去表達,很少去站在我們服務對象的角度去看我們的價值。很多人提到服務可能就會簡單聯想到端茶倒水、跑腿這種角色,比較排斥提服務。但實際上,每個團隊都是服務型團隊。比如我們服務項目組,項目組服務我們最終的用戶,我們的最終用戶可能是在他的工作領域服務其他客戶。因此,提供服務是一件非常重要的事情。只有服務好了客戶,幫助他們獲得結果,才能真正體現自己的價值。

擴展閱讀

  • ??運維百家講壇第5期:度小滿陳存利:20年老“司令”聊運維、績效、成長??
  • ??運維百家講壇第4期:又拍云邵海楊:25年Linux老兵聊DevOps八榮八恥??
  • ??運維百家講壇??
  • ??運維百家講壇第2期:作業幫聶安:運維如何轉型,聽聽作業幫的OPaS思路??
  • ??運維百家講壇第1期:井源:運維幾何??

? 版權聲明
THE END
喜歡就支持一下吧
點贊5 分享