標(biāo)簽:服務(wù)器,
服務(wù)器的宕機(jī)是一種較為嚴(yán)重的服務(wù)器故障問(wèn)題,對(duì)于很多支付行業(yè)來(lái)講是一種致命性的設(shè)備故障問(wèn)題,比如:
2009年秋天,微軟數(shù)據(jù)中心的一次服務(wù)器故障導(dǎo)致T-Mobile Sidekick手機(jī)存放在微軟服務(wù)器上的用戶數(shù)據(jù)全部丟失。這些數(shù)據(jù)包括通訊錄、日程表、照片、待辦事項(xiàng)等等;
2013年10月雅虎郵箱進(jìn)行全面改版升級(jí),一些用戶在升級(jí)后表示賬戶存在郵件丟失的情況。12月,雅虎正式確認(rèn)這次升級(jí)導(dǎo)致1%的郵箱賬戶出現(xiàn)郵件丟失問(wèn)題,一些郵件耗時(shí)數(shù)周甚至數(shù)月都無(wú)法送達(dá),這次事件最終影響到用戶數(shù)量約100萬(wàn)人左右;
2015年9月,剛剛推出DynamoDB服務(wù)器導(dǎo)致亞馬遜云服務(wù)宕機(jī),包括Redait、Tinder、Netflix、IMDB在內(nèi)的大量熱門(mén)網(wǎng)站受此影響并停運(yùn)超過(guò)七個(gè)小時(shí)。
當(dāng)然,服務(wù)器按照工作負(fù)載不同可以分為很多類(lèi)別,一篇文章并不能把所有的問(wèn)題都說(shuō)清楚,今天主要說(shuō)一下Web服務(wù)器出現(xiàn)宕機(jī)時(shí),運(yùn)維人員第一時(shí)間要做的有哪些?
其實(shí)宕機(jī)可以分為兩類(lèi):假宕機(jī)(非藍(lán)屏宕機(jī))和宕機(jī)。
假宕機(jī)是由于硬件資源暫時(shí)性地被消耗殆盡,因而無(wú)法對(duì)外部指令進(jìn)行響應(yīng)的現(xiàn)象,通常是網(wǎng)站處于訪問(wèn)高峰期,帶寬等資源跑滿,這時(shí)只需要等待一定的時(shí)間,待服務(wù)器騰出更多的硬件資源即可恢復(fù)正常。而宕機(jī),如果通過(guò)ping測(cè)試服務(wù)器,鍵盤(pán)切換數(shù)字鎖定鍵(NumLock)或大寫(xiě)鎖定鍵(Caps Lock)功能,顯示器無(wú)畫(huà)面輸出,或者鼠標(biāo)光標(biāo)沒(méi)有任何反應(yīng)則表明服務(wù)器硬件故障。
首先,檢查所有電纜和外圍設(shè)備,試著使用ping命令探測(cè)設(shè)備狀況,ping命令是所有平臺(tái)通用的,也是最簡(jiǎn)單的。如果可以在局域網(wǎng)內(nèi)ping通服務(wù)器,接著可以試試從局域網(wǎng)外ping服務(wù)器進(jìn)行檢測(cè)。這樣做可以迅速判斷問(wèn)題是否產(chǎn)生在交換和路由層面,而不是服務(wù)器級(jí)別。
電源沒(méi)有問(wèn)題,Ping不通,就要叢底層到高層來(lái)逐層檢查問(wèn)題了,檢查網(wǎng)絡(luò)接口和網(wǎng)絡(luò)配置是否正常?DHCP是否啟動(dòng)?Web服務(wù)器是否指向正確的DNS服務(wù)器?在Windows環(huán)境,需要檢查服務(wù)器是否具有Web服務(wù)的角色。在Linux環(huán)境下,檢查會(huì)更復(fù)雜,可以試試查找http相關(guān)的文件或服務(wù)來(lái)確保服務(wù)器是否正在運(yùn)行。
此外,如果Web服務(wù)器已經(jīng)虛擬化,試著ping物理服務(wù)器自己的真實(shí)IP。這樣可以幫助你進(jìn)一步隔離問(wèn)題。如果完全無(wú)法ping同服務(wù)器,而且也已經(jīng)確定完全檢查了網(wǎng)絡(luò)連接,那么就需要進(jìn)行更深入的分析了。
這種時(shí)候,就要去檢查日志并查明在Web服務(wù)器宕機(jī)時(shí)日志紀(jì)錄的信息,如果是專(zhuān)業(yè)人士,日志信息可以告訴你一切,半專(zhuān)業(yè)人士可以google搜索日志報(bào)警的錯(cuò)誤信息,逐步找到解決方法,非專(zhuān)業(yè)專(zhuān)人的管理員就要求救外援了,總之,找問(wèn)題要縱覽全局,多從架構(gòu)、資源層面去查找問(wèn)題。
當(dāng)然,經(jīng)常進(jìn)行資料備份,在去選擇一個(gè)備用服務(wù)器以方便遇到緊急狀況隨時(shí)切換,這是最笨也是最簡(jiǎn)單的辦法。
|