作者:郭濤
今年,美國知名項目管理研究雜志PM Network將“天貓雙11”與互聯(lián)網(wǎng)、阿波羅登月、人類基因組計劃等并列,共稱為世界上TOP50最有影響力的項目。“雙11”不僅改變了人們購物的方式,而且打通了商業(yè)與娛樂。
因為可以帶來數(shù)倍于平常的流量和銷售額,所以每年的“雙11”到來時,各路零售商們都會“如臨大敵”,嚴陣以待。在極限高并發(fā)訪問的情況下,在線交易系統(tǒng)、支付系統(tǒng)等能否經(jīng)受得住考驗呢?
每日優(yōu)鮮運維總監(jiān)周鋒
最初幾年,因為對“剁手黨們”在“雙11”期間的購買程度估計不足,曾經(jīng)出現(xiàn)過個別商家的系統(tǒng)不堪重負而宕機的情況。近幾年 “雙11”期間這種系統(tǒng)宕機的新聞越來越少,因為各商家在“雙11”到來前已經(jīng)做好了充足的準備。被譽為“最懂吃貨心的電商”——每日優(yōu)鮮,在今年的“雙11”到來前差不多兩個月就開始了各項準備工作,所以真正在“雙11”期間,其業(yè)務系統(tǒng)沒有出現(xiàn)任何問題,安然度過。在UCloud于11月23日舉行的UClub新零售技術(shù)沙龍上,每日優(yōu)鮮運維總監(jiān)周鋒用8個字概括了他今年的“雙11”體驗:無驚無險,風平浪靜。
外松內(nèi)緊,不打無準備之仗
真的是無驚無險,風平浪靜嗎?其實,正是因為每日優(yōu)鮮公司高層的充分重視,運維、研發(fā)、業(yè)務等各個部門協(xié)調(diào)一致,以及云服務商UCloud的支持,每日優(yōu)鮮在面對“雙11”這場大考時才會氣定神閑。
或許,用“外松內(nèi)緊”四個字來形容每日優(yōu)鮮備戰(zhàn)“雙11”會更恰當。俗話說,兵馬未動,糧草先行,為了從容應對“雙11”,資源準備必須先行。最近兩年,每日優(yōu)鮮都是按照周六日交易峰值的4倍為“雙11”設定余量。為了消除不同區(qū)域在不同時間段的交易峰值,運維團隊還要時刻準備著,根據(jù)實時交易情況削峰填谷。
從9月20到10月31日,每日優(yōu)鮮針對“雙11”期間可能出現(xiàn)的各種情況和需求,從業(yè)務運營、架構(gòu)運營、系統(tǒng)運營等多個維度進行了全面梳理,并針對可能會出現(xiàn)瓶頸的地方進行了詳細了解,準備預案,尤其是進行了一系列高強度、全方位的壓力測試。據(jù)周鋒介紹,從9月20日起,每隔三天就會進行一次大的壓測,而且每天都會有小壓測,包括全鏈路的壓測、寫壓測,以及故障演練、第三方服務出現(xiàn)問題后的應對等。因為做好了全面的準備工作,所以今年“雙11”到來時,每日優(yōu)鮮上上下下心里非常有底。
“雙11”活動期間,每日優(yōu)鮮特意在北京總部大樓的11層設立了作戰(zhàn)室,從總指揮到研發(fā)團隊的架構(gòu)師、所有運維人員,以及運營、技術(shù)和產(chǎn)品的對接人,從早上8點就全部到崗,一份分工明細的保障時間表,不僅包括所有一線參戰(zhàn)人員和備戰(zhàn)人員,而且按照每個小時分批次排定工作內(nèi)容,在辦公室的、在路上的、在各個分支構(gòu)的人員,都遵照既定的節(jié)奏,有條不紊地處理自己手中的工作。
因為每日優(yōu)鮮的IT系統(tǒng)100%托管在公有云平臺上,所以每日優(yōu)鮮的“雙11”之戰(zhàn),也有云服務商UCloud緊密配合與協(xié)作。
除了充足資源的準備,UCloud協(xié)助將每日優(yōu)鮮云資源打散,避免業(yè)務過于集中承載而出現(xiàn)問題;同時將一些歷史的監(jiān)控數(shù)據(jù)、風險分析和評估數(shù)據(jù)給到每日優(yōu)鮮作為參考,雙方共同研判在“雙11”期間可能會出現(xiàn)哪些意外狀況和風險,提前進行優(yōu)化、遷移、加固等工作,以降低風險。此外UCloud還派專人提供駐場服務,確保在問題發(fā)生時能夠第一時間響應和解決。
“在今年之前,每次‘雙11’來臨時,我們都會比較緊張,整個過程中會消耗大量人力物力資源,感覺身心比較疲憊。”周鋒坦言,“但是今年有很大不同,‘雙11’技術(shù)保障再次升級,公司內(nèi)部各業(yè)務部門之間充分溝通和配合,提前做好準備,為所有工作設定優(yōu)先級,并確定每項工作的深度,歸納出方法論。正因為如此,今年的‘雙11’保障工作才會游刃有余。”
背后的技術(shù)準備
每年的“5·17”“6·18”“雙11”“雙12”,再加上商家的店慶,還有各種各樣的節(jié)假日,現(xiàn)在的大促似乎變成了常態(tài)。這些促銷日對“剁手黨”來說是一場場的狂歡,而對于商家的IT運維團隊來說則是一場又一場不能有絲毫松懈的戰(zhàn)斗,會耗費大量精力和體力。
在大促前的準備階段,IT運維團隊要根據(jù)業(yè)務部門提出的要求,比如要做多少波秒殺、發(fā)多少張券等,研究如何分配現(xiàn)有資源,是否需要擴容并且擴多少,最大流量洪峰可能出現(xiàn)在何時,如何針對復雜架構(gòu)實現(xiàn)統(tǒng)一監(jiān)控,以及如何快速定位問題并順利解決。
商家平時的銷售和一般的促銷活動,用戶訪問量通常是線性的或可以預測的。而像“雙11”這樣的大促,通常流量是很難提前預估的。另外,為了達到預定的業(yè)績目標,業(yè)務部門可能會在某一關鍵時間點上臨時拋出一個新的營銷手段,比如在晚上11點發(fā)出一波紅包,這時可有會引發(fā)瞬間流量激增。這些臨時出現(xiàn)的情況,隨意性大,很可能導致技術(shù)瓶頸出現(xiàn),所以作為IT運維人員,必須和業(yè)務部門保持密溝通,確保在幾分鐘內(nèi)解決問題。
“瓶頸總是存在的, 這就需要不同的部門之間相互磨合,及時溝通,才能在瓶頸出現(xiàn)前,消峰填谷,及時化解。”周鋒表示。
在“雙11”之前,UCloud對每日優(yōu)鮮的運營活動計劃有了充分了解,提前優(yōu)化IT架構(gòu)的承載能力,這是應對瞬時高并發(fā)流量的前提條件。從9月20日開始,每日優(yōu)鮮的運維部門召集運營部門一起梳理促銷活動指標,預估發(fā)券、流量等數(shù)據(jù)。每日優(yōu)鮮的運維團隊負責把這些“業(yè)務語言”翻譯成“技術(shù)語言”,如哪些代碼、模塊、服務、系統(tǒng)需要特別關注或者優(yōu)化,然后再由云服務商UCloud將其翻譯成“云端資源語言”,比如需要擴容多少云主機、多大帶寬、負載均衡,以及交付節(jié)奏等,從而保證在“雙11”期間,一切交易盡在掌握。
每日優(yōu)鮮發(fā)布的今年“雙11”的戰(zhàn)報顯示:銷售額為去年同期的2.7倍,最快的一筆訂單配送到用戶僅用時5分51秒,刷新了紀錄,而運維部門的零故障完美地支撐了業(yè)務的“巔峰時刻”。
當“雙11”成了“新常態(tài)”
無論是從知名度、影響力,還是帶來的流量、銷售額來看,其他的促銷活動還不可能與“雙11”相提并論。所以,每年的“雙11”,每日優(yōu)鮮都會提前做好一切準備措施,但緊張的運維工作也會讓周鋒和他的團隊一度“忙到跳腳“。
從長遠來看,各種促銷會變成“新常態(tài)”,而每日優(yōu)鮮通過像“雙11”這樣的大促,可以不斷積累經(jīng)驗,并形成一套涵蓋技術(shù)、流程和管理的方法論,使之標準化、自動化,并可在每個促銷活動時復制,盡量采用標準化、自動化的流程、配置,減少人為參與的環(huán)節(jié),這樣不僅可以提高效率,而且減輕了運維等團隊的工作負擔。這對周鋒和他的團隊來說又是一個新課題。
關注公號:redshcom 關注更多: