服務器數據恢複環境:
HP StorageWorks某型号存儲;
虛拟化平台為vmware exsi;
10塊磁盤組成raid5(有1塊熱備盤)。
服務器故障:
raid5陣列中兩塊硬盤指示燈變黃掉線,無法讀取序列号,在SAS擴展卡上無法讀取。
故障發生後管理員把故障設備拿到我們數據恢複中心進行檢測。
服務器數據恢複過程:
1、服務器數據恢複工程師把其他正常硬盤連接到北亞鏡像服務器上進行扇區級鏡像備份。
2、判斷故障raid5陣列中硬盤故障情況是邏輯故障還是物理故障。
首先将壞盤連接到外部的SAS擴展卡,加電後通過硬盤工作聲音可以判斷硬盤電機能夠起轉,但是磁頭沒有尋道。硬件工程師把硬盤PCB拆下來并清潔HDA組件的氧化部分,将PCB還原後加電故障依舊。和用戶溝通後将熱備盤的PCB安裝到故障盤,再将故障盤PCB上的ROM芯片替換到熱備盤的PCB上面,加電後硬盤電機起轉和磁頭尋道聲音正常,但是在尋道結束後有明顯的敲盤聲,判斷磁頭損壞。在和用戶溝通後,将熱備盤的磁頭拆下安裝到故障盤。在無塵工作間對故障盤進行開盤更換磁頭,對故障盤進行檢測,發現故障盤不能識别,數據無法讀取。
因為有兩塊故障盤,之前修複失敗的是其中一塊,再次和用戶溝通後嘗試對另一塊故障盤進行修複操作。和第一塊故障盤一樣,第二塊故障盤依舊是磁頭損壞,因為用戶的OEM盤價格昂貴,于是在網上購買ST原廠的相同型号硬盤進行磁頭更換。這塊故障硬盤的磁頭更換後能夠正常識别,于是将這塊修複好的故障盤所有扇區完整鏡像到一塊相同容量的備份盤中。
3、重組RAID5。
用工具把鏡像文件解析成磁盤。所有磁盤的0扇區都有“55 AA”标志。
北亞數據恢複——RAID5數據恢複
0x01C2H處表示該分區的類型,“05”代表這是一個擴展分區。因此從0扇區看這是一個不正常的MBR分區結構。
北亞數據恢複——RAID5數據恢複
繼續往下找,分别在9号盤和8号盤找到了“55 AA”的标志。通過9号盤查詢結果可以看到,這是一個正常的MBR分區,其0x01C6處數值表示指向的下一個扇區為GPT的頭部。
北亞數據恢複——RAID5數據恢複
通過8号盤查詢結果可以看到其0x01C6處數值代表指向下一個扇區。但是下一個扇區很明顯不是GPT的頭部。
北亞數據恢複——RAID5數據恢複
由此可以确定9号盤是第一塊盤,8号盤可能是最後一塊盤。GPT分區所在扇區起始于172032扇區,因此初步判斷LUN的起始扇區是172032扇區。
判斷條帶(stripe)大小。條帶也稱塊,是RAID處理數據的基本單元,不同RAID的條帶大小是不一樣的。RAID5的1個條帶組中有1個校驗區,1個校驗區的大小等于1個條帶的大小。針對這個RAID-5案例做分析判斷本案例的一個條帶大小是1024個扇區。
判斷RAID5成員盤盤序。按照1024扇區分割,使一個記錄為一個條帶的大小。所有9塊盤跳到同一記錄283123。
北亞數據恢複——RAID5數據恢複
當所有盤都定位到同一位置時,通過對比就可以判斷出校驗區的走向,繼而确定整個RAID5的走向。之前已經判斷出9号盤是第一塊盤了,把9号盤放在第一個位置就可以判斷走向了。最終确定RAID5為左走向,盤序為9,2,3,4,10,1,7,8,5。
北亞數據恢複——RAID5數據恢複
已經初步确定了LUN的起始扇區是172032扇區。用工具跳到172032扇區觀察各硬盤實際情況。如果172032扇區是LUN的起始扇區,那麼這個扇區所屬條帶中的5号盤應該是校驗區,但是此條帶中卻顯示8号盤是檢驗區。由于本案例RAID5是左走向,5号盤的校驗區應該在172032-1024=171008扇區,即上一個條帶。跳轉到171008扇區發現校驗區為5号盤。因此可以确定LUN的起始扇區為171008扇區。
重組RAID5。使用工具按照确定的盤序組好添加進去。選擇RAID55,Stripe size 512KB,左異步。
北亞數據恢複——RAID5數據恢複
點擊Build進行重組。由于數據從1024*8=8192個扇區開始,若工具沒有跳轉到此扇區的功能,那麼剛組好的RAID必須和一個文件再進行一次Build重組操作。RAID的起始扇區(Start sectors)選擇8192,這個文件可以任意選擇起始扇區和大小(Count sectors),如下圖1和圖2所示。下圖3是組好的RAID5。
北亞數據恢複——RAID5數據恢複
北亞數據恢複——RAID5數據恢複
北亞數據恢複——RAID5數據恢複
移交數據:
整個RAID5重建好後,聯系用戶驗收數據,經過用戶親自對恢複出來的數據進行驗證後确定數據沒問題。根據用戶要求把數據移交到用戶帶來的新盤上。本次數據恢複完成。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!