當前位置:
首頁 > 新聞 > 常見伺服器故障類型及排查方法總結

常見伺服器故障類型及排查方法總結

相較於其他網路設備,如交換機、電腦終端等,伺服器發生故障的概率較小,但對企業的影響是很大的。一般像網站無法訪問時,大多都是伺服器出了問題。作為伺服器工程師除了要有伺服器基礎知識以外,還需要具備伺服器故障的診斷思路,這樣才能最快速的解決問題也可以減少故障停機時間。

一、伺服器常見故障類型分類:

A. 開機無顯示

B. 加電BIOS自檢階段故障

C. 系統和軟體安裝階段故障和現象

D. 操作系統啟動失敗

E. 系統運行階段故障

二、伺服器常見故障現象及其對應的排除方法

A.伺服器開機無顯示(加電無顯示和不加電無顯示)

1. 檢查供電環境

2. 檢查電源和故障指示燈(故障指示燈狀態,目前很多廠商的伺服器都有故障指示燈,或故障診斷卡等。)

3. 按下電源開關時,鍵盤指示燈是否亮、風扇是否全部轉動

4. 是否更換過顯示器,嘗試更換另外一台顯示器

5. 插拔內存,用橡皮擦擦拭一下金手指,如果在故障之前有增加內存,去掉增加的內存嘗試

6. 是否添加了CPU,如果有增加CPU嘗試去掉

7. 去掉增加的第三方I/O卡包括Raid卡等

8.ClearCMOS (記得使用跳線來清除,盡量不要直接拔電池,每款伺服器清除跳線位置不一致,具體找不到電話聯繫一下廠商客服)

9. 嘗試更換主板、內存等主要部件

10.清除靜電,將電源線等外插在伺服器上的線纜全部拔掉,然後輕按開機鍵幾下

B.加電BIOS自檢報錯

1. 根據BIOS自檢報錯信息提示

2. 查看是否外插了第三方的卡或者添加部件,如果有還原基本配置重啟

3. 做最小化測試

4. 嘗試清除CMOS

5. 看能否正常進入BIOS

C. 系統安裝階段故障和現象

1.查看伺服器支持操作系統的兼容版本(從廠商能查到兼容性列表)

2.系統安裝藍屏(對藍屏故障代碼診斷)

3.安裝在分區格式化的時候找不到硬碟

(陣列驅動沒有安裝或者沒有配置陣列,可以嘗試適應引導光碟安裝)

4.大於2T的硬碟式應該如何分區(必須使用陣列卡才能實現或者有外插識別卡)

(使用陣列卡配置陣列分成一個小於2T的空間,一個大於2T的空間,然後將系統安裝在小於2T的上面,安裝好系統後在使用GPT方式分區即可)

5.安裝過程是死機

(檢查兼容性列表---查看硬碟介面選擇是否正確---陣列驅動安裝是否正確---嘗試最小化配置安裝檢查是否為內存和CPU等問題)

6.引導光碟安裝失敗

(使用引導光碟安裝失敗,查看引導光碟版本是否匹配,嘗試手動安裝系統,如有陣列重新配置陣列引導安裝)

D. 操作系統啟動失敗

1.在系統啟動自檢過程中有報錯 (具體查看啟動報錯信息在定方案)

2.啟動系統藍屏(查看藍屏代碼核對)

3.進入登陸界面死機(查看進入單用戶或者安全模式是否正常,進入BIOS是否正常、是否會死機,進入磁碟陣列查看陣列狀態是否正常,檢查測試硬碟是否有壞道,最小化配置啟動)

4.忘記密碼 (windows 使用PE 破解,linux 進入單用戶破解)

E. 系統運行階段故障

1.安裝資料庫等應用軟體報錯 (對系統版本和軟體版本是否兼容,查看報錯信息是否缺少插件)

2.系統運行速度變慢 (查殺病毒,檢測陣列狀態,測試硬碟有無壞道,重新安裝系統或者修復)

3.運行藍屏 (查看藍屏代碼目錄)

4.運行死機 (檢查進入BIOS是否死機,進入系統後測試部件溫度是否正常,windows系統查看dump文件)

5.硬碟拷貝數據文件速度變慢 (測試硬碟是否有壞道,如果有陣列檢查陣列狀態,檢查改變條帶大小,與軟體應用要求測試對比)

三.伺服器故障排錯的基本原則:

1. 盡量恢復系統出廠配置

a:硬體配置:去除第三方廠商備件和非標配備件

b:資源配置:清除CMOS、恢復資源初始配置

c: BIOS、F/W、驅動程序:升級最新的BIOS、F/W和相關驅動程序

d: TPL:擴展的第三方的I/O卡是否屬於該機型的硬體兼容列表(TPL)

2. 從基本到複雜

a:系統上從個體到網路:首先將存在故障的伺服器獨立運行,待測試正常後再接入網路運行,觀察故障現象變化並處理。

b:硬體上從最小系統到現實系統:指從可以運行的硬體開始逐步到現實系統為止。

c: 軟體上從基本系統到現實系統:指從基本操作系統開始逐步到現實系統為止。

3. 部件交換對比測試

a:在最大可能相同的條件下,交換操作簡單效果明顯的部件

b:交換NOS載體,既交換軟體環境

c:交換硬體,既交換硬體環境

d:交換整機,既交換整體環境

四,伺服器故障排查方法總結

問題描述:

每當出現網站訪問不了的時候,估計應該就是伺服器出現故障了,這個時候大部分情況都是屬於資料庫出現問題。

查找步驟:

1、查找top檢查伺服器負載是否有問題

一般網站訪問不了,top顯示的負載都是很大的,這個時候可以看到mysql的進程佔用資源很高,往往就是mysql發生故障了

2、在伺服器中查看網站的訪問記錄

這些訪問記錄存儲在:/home/對應的網站名/access-logs/對應的網站名

可以先通過tail查看,查看出異常的ip的時候可以通過grep進行過濾查看,在這個文件一般都可以找到惡意爬蟲、惡意訪問的記錄,這些往往有可能是導致mysql資料庫掛掉的原因。

3、這個時候先對資料庫進行重啟,對apache進行重啟

service mysql restart

service httpd restart

重啟之後一般都可以暫時恢復正常的訪問的了。如果是出於惡意訪問的話,找出惡意訪問的ip把它禁止掉即可,如果是網站資料庫出現故障,那麼還要進行資料庫排查。

4、查找資料庫錯誤日誌

首先需要知道資料庫mysql的安裝目錄,可以通過whereis mysql找到,但是這往往沒用

還有一種方法,就是通過ps -ef | grep mysql來查看

或者也可以通過進入mysql,使用select @@basedir as basePath from dual來查看mysql安裝目錄

我們在第二種查找方法ps -ef | grep mysql中對應mysql的幾種日誌找到其所在目錄,然後查看對應文件進行分析

mysql有以下幾種日誌

錯誤日誌:-log-err

查詢日誌:-log

慢查詢日誌:-log-slow-queries

更新日誌:-log-update

二進位日誌:-log-bin

以上便是對應的資料庫錯誤日誌和慢查詢日誌的查看方法了

在伺服器的維修中,線索都會顯得撲朔迷離,有的甚至按起葫蘆翹起瓢。一般來說不可能一次就可以準確地判斷出問題的所在。這樣就要求工程師要有信心和耐心。出現錯誤一般的方法都是根據經驗優先使用最簡單排錯方法測試,如果沒有解決問題再找其它因素進行測試。總之,伺服器出錯後必須一步一步解決,沒有捷徑可言。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 威客安全 的精彩文章:

埠是什麼東西?為什麼老是被黑客利用
實戰-MS17_010滲透內網主機

TAG:威客安全 |