|
樓主 |
發表於 2009-11-29 13:07:42
|
顯示全部樓層
[全日流公告]關於09年11月19日連續一個星期出現問題的緣由
事件是從11月19日也就是上個禮拜四晚上八點忽然服務器登入不了, 一開始以為是移動機房的交換機又抽經了, 直至週五上午依然無法登入, 各大站長以及好友分別在QQ上急呼我才發現問題嚴重了
我隨後立即聯繫運營商(他們和機房是兩個單位)才瞭解到我們的機房老闆中移動被央視天天訪談連續點名批評了2天, 移動怕了所以在19日晚上大規模封閉上海怒江機房的某幾個IP段, 受影響的站點多大三四百個。
跟著就是無止盡的檢查, 要每台機器排查是不是網站全部備案了, 而又逢週五, 排查工作不可能一日完成, 週六週日又不上班, 這樣拖到了週一。我們週一上午就和營運商開始疲勞式的電話「騷擾」, 告訴他們我們的IP下網站是全部備案的, 可營運商說這不是他們能夠決定的,機房不解封就是不解封, 我們只能催不能左右。到了週一晚, 營運商的客服被我們逼的沒辦法又一次上交解封表格給中移動怒江機房,但那個時候我的感覺已經很不妙, 如果想解封早就解封了, 其實幾百個主機如果週末加加班是完全可以全部排查的, 並且可以解封。而機房一直都不給回應。。。我們把底線定在週二
週二上午我們依舊聯繫客服, 並且開始準備後著, 客服還是說等回應, 在中午的時候我們發現這麼等下去可能會無止盡的被查封中,因為機房並沒有給什麼理由解封, 而對外他們只是宣稱依然在排查之中。 果然到了週二下午四點我們服務器依然處於查封中,我們立刻和客服商量換機房了, 而客服也開始幫我們安排蘇州的機房, 但最後我毅然決定留在上海機房, 只不過換掉移動,因為移動這次的封查感覺是很不負責任的行為, 所以我們決定換到上海真如電信機房
週三, 我們以為可以順利搬家, 但出現了等待真如機房的工單, 所以遲遲沒有下落, 而我的擔憂也漸漸升級到另一個層面:如果服務器拿不回來怎麼辦?因為在網上已經看到不少站長拿不回自己的服務器, 移動不光卡著不解封, 還不給服務器。 還好我們營運商是租用機房的整個機櫃,所以交涉上比較方便。
週四上午, 機房拿到工單, 週四下午在漫長的等待中終於換到了新的機房
原以為一切噩夢結束, 可發現上架沒多久就會自動掉線, 那個時候已經是下午五點, 我們和機房的技術員一直疲勞的排查原因, 但很可惜: 此題無解~ 最後逼於無奈, 只好走最後一招: 重裝系統
但由於我們原來的系統是unix並非windows系統, 所以機房無法當天安裝, 再加上又是很晚了, 所以只好拖到週五, 而我知道週五又是到週末, 如果解決不了, 又是一個週末, 我們已經拖不起了, 但沒辦法, 只能賭一次~ 我想感恩節, 或許我們能夠恢復
週五上午, 我早早就聯繫客服, 讓他告訴機房技術準備安裝unix, 並且嚴格叮囑千萬不能格式化了我們數據盤, 只能格式系統盤, 如果數據盤格了, 我們就真的說88了
跟著漫長的等待, 到了下午一點多, 客服QQ呼叫我, 說三點準備安裝了, 我們興奮了, 開始進入備戰狀態, 因為他安裝完畢後,我們可能面臨兩個結果: 一)安裝失敗, 查出硬體出事, 這是最糟糕的 二)安裝成功, 將後續工作轉移給我們, 技術下班走人,而我們呢就不能有半點差錯, 否則又得等週一, 等不起了
終於在四點半(離技術下班半個小時前)安裝完畢, 並且排除了最糟糕的情況, 我們可以登入主機, 接下來就是我們利用遠端程序安裝服務器所需要的所有軟件
四點到六點這段時間, 我們首先升級了unix系統(機房並不是安裝最新的系統, 導致安全漏洞很多), 這個階段極為危險, 只要升級出錯,服務器又將癱瘓, 又要等了。 不過上天眷戀我們, 終於順利完工, 再重新啟動主機的時候, 我們額頭真的有流汗, 怕重啟不成徹底失敗
六點開始, 我們進入安裝應用軟件:apache, mysql, php, 以及恢復配置文件階段
unix系統是用編譯安裝的, 所以每個軟件都耗時耗力, 而且並不是很順利, 所以本來八點可以完工的, 拖到0點結束, 本以為可以順利上架了,開啟apache發現無法運行php模塊。。。。於是又刪除重裝。。。終於到凌晨3點上架, 經歷一個星期的癱瘓主機恢復~
關於查封的新聞以及無辜站長遭殃的新聞請查閱以下鏈接:
http://www.002pc.com/master/Info/zhanchangzixun/20.html
同時我們要感謝以下人士:
1)在和營運商交涉中積極幫我們打電話給客服,幾乎所有白天的電話都是他打的:麻辣論壇的水區版主-RedCometWL
2) 岩田站長YY,雅美站長hou以及結衣站長one配合在站長群中解釋最新進度, 穩定了民心起到很大作用
3) T神, 全日流的資深技術員, 從換好機房, 他和我基本沒有怎麼好好睡, 我們倆交換工作才保證了服務器以最快速度上架恢復正常
最後我要申明:這次是突發事件, 但也反應了我們其中的漏洞, 在斷網一個星期之內, 我們應該要有一個臨時的平台給其論壇訪問, 不至於損失流量, 關於這點我們已經啟動臨時平台機制, 在以後發生這種災難, 我們會自動將服務器指向一個臨時平台
再次感謝各位的耐心以及包容, 謝謝
全日流技術組
 |
|