作者:ITValue特約專家 陳罡 / 日期:2010-06-07
近期ITValue社區在熱議“雙機熱備”這一話題,其實從系統整體來看,當雙機熱備起作用,必然是發生了導致系統使用故障的事件。從多年的運行經驗出發,我總結了造成系統不可用的6個主要原因和解決辦法,供大家工作時參考,希望能盡量避免宕機的發生。
原因1:網絡故障。
原因2:應用系統本身所固有的問題。
當處理某些問題時,資源耗用過大,造成系統性能急劇下降,導致整個系統幾乎無法使用。
原因3:基礎設施問題。
包括電源、空調等的故障以及維修保養造成停機。空調故障造成過熱而使得存儲系統熱保護,進而主機也進入熱保護狀態,但主要原因還是機房設計不合理所引起的。
原因4:系統部署方案的不合理。
因為備份方案的問題,造成操作系統的文件系統崩潰進而導致宕機。
原因5:人為原因。
曾因電工誤操作,關閉所有UPS的輸出開關,造成所有設備停機。
原因6:硬件故障。
原因1網絡問題的發生,是一個綜合性的管理問題,病毒防護的缺失,網絡濫用等等;原因2和4主要是對系統的不熟悉導致解決方案的偏差,從管理上找原因,可能是未能全面正確的評估——但這個確實比較難,很多問題是因為本身的業務模式所決定的解決方案的獨特性,進而使用了非普遍使用的方案和技術,增加了風險;原因3是未能正確平衡投資與系統可用性的緣故,未能隨系統應用的發展而及時調整基礎平臺;原因5的發生絕對是基本管理缺失;原因6,硬件故障是真正的依從概率而發生的,反映了系統運維管理的缺失。
我總結,雙機熱備方式只是一個保險措施,CIO只有更多的加強IT管理,將技術、人、流程、IT風險管理等綜合考慮,才是IT管理的價值所在。
(本文作者為麗晶時代電子線纜有限公司信息管理部經理)