tft每日頭條

 > 科技

 > 服務器典型故障

服務器典型故障

科技 更新时间:2024-07-22 04:20:50

相較于其他網絡設備,如交換機、電腦終端等,服務器發生故障的概率較小,但對企業的影響是很大的。一般像網站無法訪問時,大多都是服務器出了問題。作為服務器工程師除了要有服務器基礎知識以外,還需要具備服務器故障的診斷思路,這樣才能最快速的解決問題也可以減少故障停機時間。

服務器典型故障(常見服務器故障類型及排查方法總結)1

一、服務器常見故障類型分類:

A. 開機無顯示

B. 加電BIOS自檢階段故障

C. 系統和軟件安裝階段故障和現象

D. 操作系統啟動失敗

E. 系統運行階段故障

二、服務器常見故障現象及其對應的排除方法

A.服務器開機無顯示(加電無顯示和不加電無顯示)

1. 檢查供電環境

2. 檢查電源和故障指示燈(故障指示燈狀态,目前很多廠商的服務器都有故障指示燈,或故障診斷卡等。)

3. 按下電源開關時,鍵盤指示燈是否亮、風扇是否全部轉動

4. 是否更換過顯示器,嘗試更換另外一台顯示器

5. 插拔内存,用橡皮擦擦拭一下金手指,如果在故障之前有增加内存,去掉增加的内存嘗試

6. 是否添加了CPU,如果有增加CPU嘗試去掉

7. 去掉增加的第三方I/O卡包括Raid卡等

8.ClearCMOS (記得使用跳線來清除,盡量不要直接拔電池,每款服務器清除跳線位置不一緻,具體找不到電話聯系一下廠商客服)

9. 嘗試更換主闆、内存等主要部件

10.清除靜電,将電源線等外插在服務器上的線纜全部拔掉,然後輕按開機鍵幾下

B.加電BIOS自檢報錯

1. 根據BIOS自檢報錯信息提示

2. 查看是否外插了第三方的卡或者添加部件,如果有還原基本配置重啟

3. 做最小化測試

4. 嘗試清除CMOS

5. 看能否正常進入BIOS

服務器典型故障(常見服務器故障類型及排查方法總結)2

C. 系統安裝階段故障和現象

1.查看服務器支持操作系統的兼容版本(從廠商能查到兼容性列表)

2.系統安裝藍屏(對藍屏故障代碼診斷)

3.安裝在分區格式化的時候找不到硬盤

(陣列驅動沒有安裝或者沒有配置陣列,可以嘗試适應引導光盤安裝)

4.大于2T的硬盤式應該如何分區(必須使用陣列卡才能實現或者有外插識别卡)

(使用陣列卡配置陣列分成一個小于2T的空間,一個大于2T的空間,然後将系統安裝在小于2T的上面,安裝好系統後在使用GPT方式分區即可)

5.安裝過程是死機

(檢查兼容性列表---查看硬盤接口選擇是否正确---陣列驅動安裝是否正确---嘗試最小化配置安裝檢查是否為内存和CPU等問題)

6.引導光盤安裝失敗

(使用引導光盤安裝失敗,查看引導光盤版本是否匹配,嘗試手動安裝系統,如有陣列重新配置陣列引導安裝)

D. 操作系統啟動失敗

1.在系統啟動自檢過程中有報錯 (具體查看啟動報錯信息在定方案)

2.啟動系統藍屏(查看藍屏代碼核對)

3.進入登陸界面死機(查看進入單用戶或者安全模式是否正常,進入BIOS是否正常、是否會死機,進入磁盤陣列查看陣列狀态是否正常,檢查測試硬盤是否有壞道,最小化配置啟動)

4.忘記密碼 (windows 使用PE 破解,linux 進入單用戶破解)

E. 系統運行階段故障

1.安裝數據庫等應用軟件報錯 (對系統版本和軟件版本是否兼容,查看報錯信息是否缺少插件)

2.系統運行速度變慢 (查殺病毒,檢測陣列狀态,測試硬盤有無壞道,重新安裝系統或者修複)

3.運行藍屏 (查看藍屏代碼目錄)

4.運行死機 (檢查進入BIOS是否死機,進入系統後測試部件溫度是否正常,windows系統查看dump文件)

5.硬盤拷貝數據文件速度變慢 (測試硬盤是否有壞道,如果有陣列檢查陣列狀态,檢查改變條帶大小,與軟件應用要求測試對比)

服務器典型故障(常見服務器故障類型及排查方法總結)3

三.服務器故障排錯的基本原則:

1. 盡量恢複系統出廠配置

a:硬件配置:去除第三方廠商備件和非标配備件

b:資源配置:清除CMOS、恢複資源初始配置

c: BIOS、F/W、驅動程序:升級最新的BIOS、F/W和相關驅動程序

d: TPL:擴展的第三方的I/O卡是否屬于該機型的硬件兼容列表(TPL)

2. 從基本到複雜

a:系統上從個體到網絡:首先将存在故障的服務器獨立運行,待測試正常後再接入網絡運行,觀察故障現象變化并處理。

b:硬件上從最小系統到現實系統:指從可以運行的硬件開始逐步到現實系統為止。

c: 軟件上從基本系統到現實系統:指從基本操作系統開始逐步到現實系統為止。

3. 部件交換對比測試

a:在最大可能相同的條件下,交換操作簡單效果明顯的部件

b:交換NOS載體,既交換軟件環境

c:交換硬件,既交換硬件環境

d:交換整機,既交換整體環境

服務器典型故障(常見服務器故障類型及排查方法總結)4

四,服務器故障排查方法總結

問題描述:

每當出現網站訪問不了的時候,估計應該就是服務器出現故障了,這個時候大部分情況都是屬于數據庫出現問題。

查找步驟:

1、查找top檢查服務器負載是否有問題

一般網站訪問不了,top顯示的負載都是很大的,這個時候可以看到mysql的進程占用資源很高,往往就是mysql發生故障了

2、在服務器中查看網站的訪問記錄

這些訪問記錄存儲在:/home/對應的網站名/access-logs/對應的網站名

可以先通過tail查看,查看出異常的ip的時候可以通過grep進行過濾查看,在這個文件一般都可以找到惡意爬蟲、惡意訪問的記錄,這些往往有可能是導緻mysql數據庫挂掉的原因。

3、這個時候先對數據庫進行重啟,對apache進行重啟

service mysql restart

service httpd restart

重啟之後一般都可以暫時恢複正常的訪問的了。如果是出于惡意訪問的話,找出惡意訪問的ip把它禁止掉即可,如果是網站數據庫出現故障,那麼還要進行數據庫排查。

4、查找數據庫錯誤日志

首先需要知道數據庫mysql的安裝目錄,可以通過whereis mysql找到,但是這往往沒用

還有一種方法,就是通過ps -ef | grep mysql來查看

或者也可以通過進入mysql,使用select @@basedir as basePath from dual來查看mysql安裝目錄

我們在第二種查找方法ps -ef | grep mysql中對應mysql的幾種日志找到其所在目錄,然後查看對應文件進行分析

mysql有以下幾種日志

錯誤日志:-log-err

查詢日志:-log

慢查詢日志:-log-slow-queries

更新日志:-log-update

二進制日志:-log-bin

以上便是對應的數據庫錯誤日志和慢查詢日志的查看方法了

服務器典型故障(常見服務器故障類型及排查方法總結)5

在服務器的維修中,線索都會顯得撲朔迷離,有的甚至按起葫蘆翹起瓢。一般來說不可能一次就可以準确地判斷出問題的所在。這樣就要求工程師要有信心和耐心。出現錯誤一般的方法都是根據經驗優先使用最簡單排錯方法測試,如果沒有解決問題再找其它因素進行測試。總之,服務器出錯後必須一步一步解決,沒有捷徑可言。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved