人生充滿了偶然。人生又暗含定數,寫著必然。以及,偶然堆積而成的必然,和必然之外不能承受的偶然……
數據中心也不例外。在高新科技園靠著深南大道的南側,有一棟不高也不低、不算漂亮也不丑的建筑,叫飛亞達大廈。顧名思義就是飛亞達拿地并蓋成了商業(yè)樓宇,不過除了一間小小的鐘表展廳以及高圓圓的大幅海報還昭示著飛亞達的存在,更為人熟知的,是騰訊曾經并還在這里辦公。
飛亞達的五樓,有一間歷史算得上悠久的數據中心。說悠久也不過十年出頭的光景,但它畢竟接待了許多當年盛極一時的鵝廠業(yè)務,比如QQlive,后來才轉為IT功能。機房不大,針頭線腦卻不少,在不同時期不同應急場景下增添的飛線,后來是沒人敢碰了;加上假雙路市電,一臺殘破的柴油發(fā)電機還只給分配300A的容量,硬件上連Tier3都達不到。
按理說這樣一個低可用性的機房,隨時出點什么事都是可以接受的現實。偏偏十幾年光陰裹挾著臺風雷暴呼嘯而過,機房穩(wěn)得一比,竟然連個像樣的故障都沒有,業(yè)務更是從來沒有中斷過。更多時候,所有人都遺忘了在人來人往的大廈中間,還有它的存在。是概率論失效了嗎(湊巧)?還是因為人品太好(宿命)?反過來看最近這些年發(fā)生的多起重大故障,數據中心規(guī)模都是大型甚至超大型,硬件條件不是Tier4-至少也是Tier3+,偏偏就一頭往小概率事件上撞
上了……而且,是好幾個小概率事件湊巧撞在了一起。但凡有一個小概率事件不發(fā)生,也許就解救了這次危機;概率論在這里同樣失效,因為它們偏偏就扎堆兒發(fā)生了。每次重大故障復盤,這樣的申冤之辭最為常見:其實這個(引發(fā)故障的)問題我們早就看到了,優(yōu)化方案也評審完成了,預算也申請了,可剛做了一半就……你說我冤不冤!當故障發(fā)生,你費盡心血搞到的MO認證,你保持了1024天的無故障運行紀錄,你引以為傲的業(yè)界最低PUE……這些亮閃閃的光輝,都變得毫無意義。你只想說:墨菲,我信你個鬼,你這個糟老頭子壞得很。 |