tft每日頭條

 > 科技

 > hpdl580g7怎麼進磁盤陣列

hpdl580g7怎麼進磁盤陣列

科技 更新时间:2024-07-07 18:48:35
HP存儲RAID5硬盤離線LVM下VXFS文件系統恢複教程分享

在HP存儲RAID5硬盤離線LVM下VXFS文件系統是如何進行恢複的呢?HP存儲也是在企業中常用的存儲設備了,本次分享的故障設備為:HP FC MSA2000存儲,由于RAID5陣列中出現2塊硬盤損壞并離線,而此時隻有一塊熱備盤成功激活,因此導緻RAID5陣列癱瘓,上層LUN無法正常使用,整個存儲空間由8塊450GB SAS的硬盤組成,其中7塊硬盤組成一個RAID5的陣列,剩餘1塊做成熱備盤使用。

hpdl580g7怎麼進磁盤陣列(HP存儲RAID5硬盤離線LVM下VXFS文件系統恢複教程分享)1

由于存儲是因為RAID陣列中某些磁盤掉線,從而導緻整個存儲不可用。因此接收到磁盤以後先對所有磁盤做物理檢測,檢測完後發現沒有物理故障。接着使用壞道檢測工具檢測磁盤壞道,發現也沒有壞道。

hpdl580g7怎麼進磁盤陣列(HP存儲RAID5硬盤離線LVM下VXFS文件系統恢複教程分享)2

1、備份數據

考慮到數據的安全性以及可還原性,在做數據恢複之前需要對所有源數據做備份,以防萬一其他原因導緻數據無法再次恢複。使用dd命令或winhex工具将所有磁盤都鏡像成文件。

2、分析故障原因

由于前兩個步驟并沒有檢測到磁盤有物理故障或者是壞道,由此推斷可能是由于某些磁盤讀寫不穩定導緻故障發生。因為HP MSA2000控制器檢查磁盤的策略很嚴格,一旦某些磁盤性能不穩定,HP MSA2000控制器就認為是壞盤,就将認為是壞盤的磁盤踢出RAID組。而一旦RAID組中掉線的盤到達到RAID級别允許掉盤的極限,那麼這個RAID組将變的不可用,上層基于RAID組的LUN也将變的不可用。目前初步了解的情況為基于RAID組的LUN有6個,均分配給HP-Unix小機使用,上層做的LVM邏輯卷,重要數據為Oracle數據庫及OA服務端。

3、分析RAID組結構

HP MSA2000存儲的LUN都是基于RAID組的,因此需要先分析底層RAID組的信息,然後根據分析的信息重構原始的RAID組。分析每一塊數據盤,發現4号盤的數據同其它數據盤不太一樣,初步認為可能是hot Spare盤。接着分析其他數據盤,分析Oracle數據庫頁在每個磁盤中分布的情況,并根據數據分布的情況得出RAID組的條帶大小,磁盤順序及數據走向等RAID組的重要信息。

4、分析RAID組掉線盤

根據上述分析的RAID信息,嘗試通過北亞自主開發的RAID虛拟程序将原始的RAID組虛拟出來。但由于整個RAID組中一共掉線兩塊盤,因此需要分析這兩塊硬盤掉線的順序。仔細分析每一塊硬盤中的數據,發現有一塊硬盤在同一個條帶上的數據和其他硬盤明顯不一樣,因此初步判斷此硬盤可能是最先掉線的,通過北亞自主開發的RAID校驗程序對這個條帶做校驗,發現除掉剛才分析的那塊硬盤得出的數據是最好的,因此可以明确最先掉線的硬盤了。

5、分析RAID組中的LUN信息

由于LUN是基于RAID組的,因此需要根據上述分析的信息将RAID組最新的狀态虛拟出來。然後分析LUN在RAID組中的分配情況,以及LUN分配的數據塊MAP。由于底層有6個LUN,因此隻需要将每一個LUN的數據塊分布MAP提取出來。然後針對這些信息編寫相應的程序,對所有LUN的數據MAP做解析,然後根據數據MAP并導出所有LUN的數據。

6、解析LVM邏輯卷

分析生成出來的所有LUN,發現所有LUN中均包含HP-Unix的LVM邏輯卷信息。嘗試解析每個LUN中的LVM信息,發現其中一共有三套LVM,其中45G的LVM中劃分了一個LV,裡面存放OA服務器端的數據,190G的LVM中劃分了一個LV,裡面存放臨時備份數據。剩餘4個LUN組成一個2.1T左右的LVM,也隻劃分了一個LV,裡面存放Oracle數據庫文件。編寫解釋LVM的程序,嘗試将每套LVM中的LV卷都解釋出來,但發現解釋程序出錯。

7、修複LVM邏輯卷

仔細分析程序報錯的原因,安排開發工程師debug程序出錯的位置,并同時安排高級文件系統工程師對恢複的LUN做檢測,檢測LVM信息是否會因存儲癱瘓導緻LMV邏輯卷的信息損壞。經過仔細檢測,發現确實因為存儲癱瘓導緻LVM信息損壞。嘗試人工對損壞的區域進行修複,并同步修改程序,重新解析LVM邏輯卷。

8、解析VXFS文件系統

搭建HP-Unix環境,将解釋出來的LV卷映射到HP-Unix,并嘗試Mount文件系統。結果Mount文件系統出錯,嘗試使用“fsck –F VXFS” 命令修複VXFS文件系統,但修複結果還是不能挂載,懷疑底層VXFS文件系統的部分元數據可能破壞,需要進行手工修複。

9、修複VXFS文件系統

仔細分析解析出來的LV,并根據VXFS文件系統的底層結構校驗此文件系統是否完整。分析發現底層VXFS文件系統果然有問題,原來當時存儲癱瘓的同時此文件在系統正在執行IO操作,因此導緻部分文件系統元文件沒有更新以及損壞。人工對這些損壞的元文件進行手工修複,保證VXFS文件系統能夠正常解析。再次将修複好的LV卷挂載到HP-Unix小機上,嘗試Mount文件系統,文件系統沒有報錯,成功挂載。

10、恢複所有用戶文件

在HP-Unix機器上mount文件系統後,将所有用戶數據均備份至指定磁盤空間。所有用戶數據大小在1.2TB左右。

11、檢測數據庫文件是否完整

使用Oracle數據庫文件檢測工具“dbv”檢測每個數據庫文件是否完整,發現并沒有錯誤。再使用北亞自主研發的Oracle數據庫檢測工具(檢驗更嚴格),發現有部分數據庫文件和日志文件校驗不一緻,安排高級數據庫工程師對此類文件進行修複,并在次校驗,直到所有文件校驗均完全通過。

12、啟動Oracle數據庫

由于我們提供的HP-Unix環境沒有此版本的Oracle數據,因此和用戶協調将原始生成環境帶至北亞數據恢複中心,然後将恢複的Oracle數據庫附加到原始生産環境的HP-Unix服務器中,嘗試啟動Oracle數據庫,Oracle數據庫啟動成功。部分截圖如下:

hpdl580g7怎麼進磁盤陣列(HP存儲RAID5硬盤離線LVM下VXFS文件系統恢複教程分享)3

13、數據驗證

由用戶方配合,啟動Oracle數據庫,啟動OA服務端,在本地筆記本安裝OA客戶端。通過OA客戶端對最新的數據記錄以及曆史數據記錄進行驗證,并且有用戶安排遠程不同部門人員進行遠程驗證。最終數據驗證無誤,數據完整,數據恢複成功。最終在預期的時間内完成整個數據恢複,恢複的數據用戶方也相當滿意,Oracle數據庫服務,OA服務端等所有服務能夠正常啟動。

【北亞小貼士】

當故障發生後大家要盡可能的保存現場環境良好,不要做相關危險的操作,這對後期的數據恢複有很大的幫助。案例中的用戶也是對這方便的知識有所掌握,在故障發生後合理的保存了現場環境,點贊!避免了故障的惡化......

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved