作者:郭娟 / 日期:2015-06-08
攜程宕機事件再次讓人們關注起IT運維的話題,試想,一個企業擁有那么多業務線,支撐諸多業務的IT系統稍微出點差錯,牽一發而動全身。據了解,攜程此次宕機12個小時,損失超過1300萬美元。順豐科技的總裁田民甚至打了個比方:“就像天天背手榴彈一樣,就害怕某個系統出一點點差錯。”
“只要數據中心網絡出問題,甭說是幾個小時,就只有半小時,楊元慶就會把我叫過去,兩小時,肯定是整個董事會都會來找我。” 聯想全球服務、聯想集團高級副總裁、前聯想集團CIO王曉巖女士這樣說。
日前,《商業價值》出版人、鈦媒體聯合出版人、ITValue發起理事劉湘明就這個話題與田民、王曉巖以及京東商城研發部副總裁馬松做了一次對話,聯想、順豐和京東,這三家企業所涉及領域不同、業務線迥異,他們的IT運維有什么高招?
王曉巖:聯想運維團隊人數占據整個IT人員的一半
聯想IT運維的挑戰是國際化業務之后凸顯出來的,因為之前,我們對系統壓力較大的業務是一些技術體驗的,一些運維工作也在夜里完成,國際化后,我們要全天24小時要支持我們業務。
聯想的業務跑了160個國家,辦公室遍布全球六七十個國家,我們的主數據中心在北京,災備中心也在國內。聯想從2005年、2006年開始鋪設架構,基本上是一個集成化的部署,主要的IT數據中心都在國內,但是它是支持全球的7*24小時的運作,對運維就提出了很高的要求。
我們也想過將IT運維外包,它是基于客戶的有問題的數來做支持的,成本高,響應也不及時。另外,客戶端要感覺好,重要的系統端也不能出故障,這時候要求我們整個運維的計劃要特別強。我們要看下一點的整體運行時間,哪個時間是計劃內的系統的運維時間,這個時間怎么事先跟業務溝通好,當然我們計劃的時間都是在業務相對低谷的一些時間,業務少一點的,要實現跟業務溝通好,哪些可能是計劃外的,其實我最大的挑戰不光是運維,我們已經談到,我們的MTP,也就是從測試的部分,或者開發系統挪到生產系統,是一個非常復雜的過程。
所以現在在聯想IT人員不到2000人,運維團隊約有1000人的規模。還有一部分是外包給自己的服務部門,最重要的還是在管理上要效率。實際上我坐飛機的時候,或者出差的時候,或者是節假日的時候,我對新系統上線是最擔心的,盡管我每天非常忙,但是我最擔心的是數據中心網絡出問題,因為只要數據中心網絡出問題,甭說是幾個小時,半個小時,楊元慶就把我叫過去了,兩小時的肯定是整個董事會都會來找我。
盡管我們有災備中心,我們的災備中心也從來不用,但我必須得保證所有的工作做到位,所以要求無論從網絡、從數據中心都要有目的性,包括每年PC銷售的高峰和低谷差別很大,高峰到來的時候一定要事先來做好預演工作來確保系統不出問題。所以我們運維的難度是國際化的難度,傳統的IT集成性難度非常高,我們必須在管理上要特別嚴格,聯想這些年當然也積累了非常豐富的經驗。
田民:順豐的系統引入自動檢測工具
順豐的業務形態決定我們要用RO的架構,因為順豐的系統是第一個在中國使用全自動分檢功能,這個系統如果我們宕機半個小時的話,可能就是非常大的災難性的損失。
我做物流可能也做了差不多二十年,對于IT系統的運轉,我打個比方,就像天天背手榴彈一樣,就害怕某個地方出一點點差錯,所以,我們快遞的業態決定用很多自動化設備。
順豐目前為止還只是同城的災備,順豐目前每天包裹量是700萬,雙11高峰時達到1200萬,系統里都上億的。我們跟電商唯一的不同,我們在系統里面要保留數據的要求比較大,因跟電商系統下單后,可能剛剛進入我們的物流系統,倉儲狀態還沒顯示,所以要保留一個周期,這樣的業務狀態對數據庫的要求非常高。所以我們在前一階段在數據庫上用很多小型機來保持系統的穩定性。
另外我們研發了很多自動檢測工具,來預防未來這種事情的發生。我們最近也有很多系統在突發之前已經預警,也幫我們解決了很多問題,實際上購物數據一旦出點問題的代價很大,但是我們通過所有可能的方法,通過預演,我們用最短的時間讓系統恢復。
馬松:一根電纜影響不到京東的服務
京東的交易非常復雜,不僅有正常的自營業務也有POP商家,也有面向海外的,也有諸如散購、京東到家等,業務線非常多。
每條業務的購物流程都不一樣,整個服務體系的系統分布在不同的地方,所以切換過程相當復雜,我們也在每個單獨系統也都做了切換,所以我相信,大部分主要的業務不至于因為一根電纜影響到業務。
我們事前也會也做很多演練,這方面也能做到一定程度的保障。當大規模訪問爆發時,例如即將到來的6.18,對系統的要求集中在能不能提供信息安全、穩定性、高可用性這塊,因為我們畢竟是面向海量用戶做服務。