伺服器常見故障
一、造成伺服器無法啟動的主要原因:
市電或電源線故障(斷電或接觸不良)
電源或電源模組故障
記憶體故障(一般伴隨警報聲)
CPU故障(一般也會有警報聲)
主機板故障
其它插卡造成中斷衝突
二、伺服器無法啟動?
檢查電源線及各種I/O接線是否連接正常。
檢查連接電源線後主機板是否加電。
將伺服器設為最小配置(只接單顆cpu,最少的內存,只連接顯示器和鍵盤)直接短接主機板開關跳線,看看是否能夠啟動。
檢查電源,將所有的電源介面拔下,將電源供應器的主機板供電口的綠線和黑線短接,看看電源是否啟動。
如果判斷電源正常,則需要用替換法來排除故障,替換法是在最小化配置下先由最容易替換的配件開始替換(內存、cpu、主機板)
三、系統頻繁重啟?
造成系統頻繁重啟的原因:
電源故障(替換法判斷解決)
記憶體故障(可從BIOS錯誤報告查出)
網路連接埠資料流量過大(工作壓力過大)
軟體故障(更新或重裝作業系統解決)
四、伺服器死機故障判斷處理:
伺服器當機故障比較難以判斷,一般分為軟體和硬體兩個面向:
軟體故障
硬體故障
軟體故障
先檢查作業系統的系統日誌,可以透過系統日誌來判斷部分造成當機的原因。
電腦病毒的原因。
系統軟體的bug或漏洞造成的當機,這種故障需要在判斷硬體無故障後做出,而且需要軟體供應商提供協助。
軟體使用不當或系統工作壓力過大,可以請客戶適當降低伺服器的工作壓力來看看是否能解決
硬體故障
硬體衝突
電源故障或電源供電不足,可以透過比較計算伺服器電源所有的負載功率的值來作出判斷。
硬碟故障(透過掃描硬碟表面來檢查是否有壞道)
記憶體故障(可以透過主機板BIOS中的錯誤報告和作業系統的報錯資訊來判斷)
主機板故障(使用替換法來判斷)
CPU故障(使用替換法)
闆卡故障(一般是SCSI/RAID卡或其他pci設備也有可能造成系統死機,可用替換法判斷處理)
注意:系統當機故障需要在處理完後需要在一段時間內進行一定壓力的拷機測試來盡一步檢查故障是否徹底解決。
五、安裝作業系統時提示找不到硬碟?
故障原因:
無實體硬碟設備
硬碟線連接問題
沒有安裝硬碟控制器驅動或驅動不相符
六、如何取得驅動程式?
使用隨機光碟製作相應驅動
[Cut-Page]
七、為什麼用正確的驅動仍然無法載入硬碟控制器驅動?
查看是否啟用了hostraid功能。
八、新購買的一塊硬碟,安裝到機器上之後,機器自我檢測無法通過?
將新的硬碟取下,機器是否可以自檢通過;
檢查新增加的硬碟的ID號碼是否與原來的硬碟的ID號碼相同,如果硬碟的ID號碼相同的話,自檢將無法通過。
九、如何格式化SCSI硬碟?
有作業系統的狀況:使用磁碟管理工具格式化;
無作業系統的狀況:在SCSI管理控制介面格式化;
以ADAPTEC Raid卡為例:開機-出現CTRL+A 資訊時,按CTRL+A進入-選取通道A
-選取SCSI UTILITY-將偵測到硬碟-選取要偵測的硬碟
-選取FORMAT可對硬碟進行全面格式化
選取VERIFY可對硬碟進行偵測,檢查是否有壞道
注意:在格式化硬碟時不能中斷或停電,不然會損壞磁碟
十、在Aisino 系列中有RAID卡機器,當其中一個硬碟不能正常工作RAID警報,但係統能正常運行,怎麼辦?
用一個新硬碟,確保容量大於或等於無法正常工作的硬碟,最好用相同型號的硬碟替換即可。
RAID卡相關常見故障
第一類: RAID卡本身有問題
常表現為RAID資訊遺失,硬碟經常斷線,不能做REBUILD,開機自我檢測時偵測不到硬碟或時間長。
典型故障A:
作完RAID1,安裝作業系統,一切正常,但第二次重啟系統時,發出警報聲,經檢查發現一塊硬碟斷線,REBUILD後,又恢復正常,但重啟後又斷線。懷疑為硬碟故障,校驗硬碟後無問題。最後更換RAID卡,故障解決。
典型故障B:
機器經常當機,有時啟動速度非常慢。觀察系統日誌,發現在系統啟動時有這樣一個錯誤提示:裝置/devices/scsi/port0 在傳輸等待的時間內沒有回應。更換RAID卡後,恢復正常。
第二類: 硬碟本身問題
表現為硬碟斷線,在RAID陣列中的狀態為DEAD,或是在作REBUILD時,作到某一進度就無法繼續
典型故障:
硬碟斷線後,做REBUILD時,作到20%時出現錯誤提示無法繼續進行。在確認掉線硬碟,硬碟盒及SCSI電纜都能正常運作後,對線上硬碟進行校驗,發現有壞道,修復硬碟,重做REBUILD,恢復正常。
第三類: 硬碟盒或模組的接觸問題
這類問題經常表現為RAID卡根本無法偵測到硬碟,這類問題較簡單,但在處理硬碟盒相關機器時,需要注意一些問題。
典型故障:
RIAD卡中偵測不到硬碟,把SCSI電纜接到主機板的ULTRA160介面上,故障依舊,拔出硬碟盒(不包括硬碟盒後面的托架)更換,故障依舊,更換硬碟,還是不行。最後卸下硬碟盒後面的托架(非熱插拔部分),發現後托架上80PIN接口上的一根針彎曲,校直彎針,恢復正常。
十一、在伺服器上使用的SCSI硬碟,為什麼硬碟的ID號碼不能設定為7?
SCSI控制器中,預設將ID=7設定為硬碟控制器佔,所以硬碟的ID號碼不能設定為7
十二、為什麼開機自我檢測無法通過?
解決方法:
機器切斷電源,將機箱打開,用「COMS CLEAR」跳線的跳線帽將「COMS CLEAR」跳線的另外兩個針短接(跳線參看主板說明書)
機器加電,自檢,等機器自檢完閉,報CMOS已被清除,然後將機器電源關掉,把跳線復原即可
機器重新開機
十三、物理記憶體插槽報錯
解決方法:
開機-按F2進入“SETUP”-“ADVANCED”--“MEMORY CONFIGURATION” 回車-“CLEAR DIMM ERRORS” 直接回車
十四、為什麼處理器報錯或自我檢測過程中只找到一個處理器?
解決方法:
開機--〉按F2鍵,進入"SETUP"
1、依序"MAIN" --〉"PROCESSOR" --〉"CLEAR PROCESSOR ERRORS [ ]" :將此選項值設為"YES" ;
2、依序"ADVANCED " --〉"RESET CONFIGURATION DATA [ ] ":將此選項的值設為" YES" ;
3、依序"SERVER " --〉"PROCESSOR RESET [ ] ":將此選項的值設為" YES" ;
4、依序"SERVER " --〉"SYSTEM MANAGEMENT ":Enter--〉 "CLEAR EVENTLOG [ ] " :將此選項的值設為" YES"
5、按F10,儲存退出
[Cut-Page]七、為什麼用正確的驅動仍然無法載入硬碟控制器驅動?
查看是否啟用了hostraid功能。
八、新購買的一塊硬碟,安裝到機器上之後,機器自我檢測無法通過?
將新的硬碟取下,機器是否可以自檢通過;
檢查新增加的硬碟的ID號碼是否與原來的硬碟的ID號碼相同,如果硬碟的ID號碼相同的話,自檢將無法通過。
九、如何格式化SCSI硬碟?
有作業系統的狀況:使用磁碟管理工具格式化;
無作業系統的狀況:在SCSI管理控制介面格式化;
以ADAPTEC Raid卡為例:開機-出現CTRL+A 資訊時,按CTRL+A進入-選取通道A
-選取SCSI UTILITY-將偵測到硬碟-選取要偵測的硬碟
-選取FORMAT可對硬碟進行全面格式化
選取VERIFY可對硬碟進行偵測,檢查是否有壞道
注意:在格式化硬碟時不能中斷或停電,不然會損壞磁碟
十、在Aisino 系列中有RAID卡機器,當其中一個硬碟不能正常工作RAID警報,但係統能正常運行,怎麼辦?
用一個新硬碟,確保容量大於或等於無法正常工作的硬碟,最好用相同型號的硬碟替換即可。
RAID卡相關常見故障
第一類: RAID卡本身有問題
常表現為RAID資訊遺失,硬碟經常斷線,不能做REBUILD,開機自我檢測時偵測不到硬碟或時間長。
典型故障A:
作完RAID1,安裝作業系統,一切正常,但第二次重啟系統時,發出警報聲,經檢查發現一塊硬碟斷線,REBUILD後,又恢復正常,但重啟後又斷線。懷疑為硬碟故障,校驗硬碟後無問題。最後更換RAID卡,故障解決。
典型故障B:
機器經常當機,有時啟動速度非常慢。觀察系統日誌,發現在系統啟動時有這樣一個錯誤提示:裝置/devices/scsi/port0 在傳輸等待的時間內沒有回應。更換RAID卡後,恢復正常。
第二類: 硬碟本身問題
表現為硬碟斷線,在RAID陣列中的狀態為DEAD,或是在作REBUILD時,作到某一進度就無法繼續
典型故障:
硬碟斷線後,做REBUILD時,作到20%時出現錯誤提示無法繼續進行。在確認掉線硬碟,硬碟盒及SCSI電纜都能正常運作後,對線上硬碟進行校驗,發現有壞道,修復硬碟,重做REBUILD,恢復正常。
第三類: 硬碟盒或模組的接觸問題
這類問題經常表現為RAID卡根本無法偵測到硬碟,這類問題較簡單,但在處理硬碟盒相關機器時,需要注意一些問題。
典型故障:
RIAD卡中偵測不到硬碟,把SCSI電纜接到主機板的ULTRA160介面上,故障依舊,拔出硬碟盒(不包括硬碟盒後面的托架)更換,故障依舊,更換硬碟,還是不行。最後卸下硬碟盒後面的托架(非熱插拔部分),發現後托架上80PIN接口上的一根針彎曲,校直彎針,恢復正常。
十一、在伺服器上使用的SCSI硬碟,為什麼硬碟的ID號碼不能設定為7?
SCSI控制器中,預設將ID=7設定為硬碟控制器佔,所以硬碟的ID號碼不能設定為7
十二、為什麼開機自我檢測無法通過?
解決方法:
機器切斷電源,將機箱打開,用「COMS CLEAR」跳線的跳線帽將「COMS CLEAR」跳線的另外兩個針短接(跳線參看主板說明書)
機器加電,自檢,等機器自檢完閉,報CMOS已被清除,然後將機器電源關掉,把跳線復原即可
機器重新開機
十三、物理記憶體插槽報錯
解決方法:
開機-按F2進入“SETUP”-“ADVANCED”--“MEMORY CONFIGURATION” 回車-“CLEAR DIMM ERRORS” 直接回車
十四、為什麼處理器報錯或自我檢測過程中只找到一個處理器?
解決方法:
開機--〉按F2鍵,進入"SETUP"
1、依序"MAIN" --〉"PROCESSOR" --〉"CLEAR PROCESSOR ERRORS [ ]" :將此選項值設為"YES" ;
2、依序"ADVANCED " --〉"RESET CONFIGURATION DATA [ ] ":將此選項的值設為" YES" ;
3、依序"SERVER " --〉"PROCESSOR RESET [ ] ":將此選項的值設為" YES" ;
4、依序"SERVER " --〉"SYSTEM MANAGEMENT ":Enter--〉 "CLEAR EVENTLOG [ ] " :將此選項的值設為" YES"
5、按F10,儲存退出