這是學習筆記的第 1966 篇文章
系統巡檢是對于服務巡檢的第一站,所以在這裡我們要做好第一班崗,如果系統巡檢稀裡糊塗,那麼後續的數據庫服務巡檢效果也會大打折扣。
對于系統巡檢整體上有如下的一些部分需要注意:
可能整體看起來沒有太深入的理解,但是和實踐結合起來就有很多的注意事項,我們就以硬件信息-ILO狀态檢查為例來提供一種巡檢思路,iLO(Integrated Lights-Out)服務基于惠普的遠程控制卡服務,在Dell服務中叫做iDRAC(Integrated Dell Remote Access Controller),為了方便理解,在此我們暫且統稱為iLO服務。
對于iLO服務,我們需要做如下的巡檢:
(1) 檢查ILO可用性和使用情況
(2) ILO模塊是否開啟
(3) iLO密碼檢查
(4) iLO超過最大用戶連接數限制檢查
(5) iLO在不同的硬件産品版本和浏覽器的兼容性
(6) iLO頁面和客戶端JAVA的版本關系
我們逐個展開來解讀一下:
(1) 檢查iLO可用性和使用情況
如果擁有對服務器資源的管理權限,對于ILO還是要驗證一下,大體有幾種情況。
(2) iLO模塊是否開啟
這個可以聯系系統組的同學幫你開啟,也可以參考下面的步驟。
#modprobe ipmi_watchdog
#modprobe ipmi_poweroff
# modprobe ipmi_devintf
#chkconfig ipmi on
(3) iLO密碼檢查
可以使用下面的命令來重置密碼
/usr/bin/ipmitool user set password 2 'xunjian'
(4) iLO超過最大用戶連接數限制檢查
如果用戶名,密碼正确,如果上一次登錄沒有正常退出,可能會有下面的報錯。
RAC0218:已達到用戶會話的最大數
這個時候可以重啟iLO來達到目标。
ipmitool mc reset cold,這個過程會持續幾分鐘。
(5) iLO在不同的硬件産品版本和浏覽器的兼容性
ILO在不同的硬件産品版本中浏覽器也有一些使用差異,有些版本使用IE低版本可以,有些可以使用chrome,firefox,有些則不适用。
(6) iLO頁面和JAVA的版本關系
這兩點比較微妙,但是在實際中碰到問題的時候更多,特别是對于Java,如果查看新版本的硬件,過高的版本是不推薦的,因為安全策略太高,導緻初始化失敗,得用JAVA7及以下的版本了。
在其他層面,我也做一些闡述。
在主機層面需要注意如下的兩點:
(1) 操作系統版本
操作系統的版本也需要提前規劃,如果有些服務的版本過舊,需要考慮升級到一個較新的穩定版本,比如RedHat 5是個相對較舊的版本,需要盡可能升級到6U8以上版本。
(2) 操作系統内核參數
操作系統内核參數可以作為一個重要的檢查項,當然對于主庫而言可能重啟不現實,但是提前準備好,在下次重啟的時候能夠省事省力,對于備庫而言,也可以提早準備。
在安全檢查方面,有如下的幾點補充:
(1) 系統文件權限
對于部分文件,需要考慮文件的權限,保證不會惡意篡改。比如設定這些關鍵文件和配置文件的隻讀權限,比如/etc/passwd,/etc/shadow,/etc/group等等
(2) 備份保留情況,是否有異機備份
這個需要結合目前的系統使用情況,如果數據庫是非歸檔,測試環境,可以考慮異機備份。對于一些關鍵業務,在有災備的情況下,也可以額外增加部分的邏輯備份。
(3) 檢查操作系統防火牆情況
對于操作系統中的防火牆設定最好能夠提供完整的備份,到時候可以在災備切換的時候用到。
如果存在特殊的網絡設置情況,需要提前标注,要不幫你處理問題的同事會踩到一大坑。
在系統配置方面,有以下的補充:
(1) swap使用情況
swap的監控還是比較重要,要不swap争用較高,如果剩餘内存不足,很容易觸發oom-killer
(2) 文件的分區和規劃情況
對于文件的分區和使用情況也需要格外關注,對于一些過舊的曆史文件可以壓縮或者删除。是否還在使用很陳舊的文件系統。
在系統任務方面,有如下的幾點補充:
(1) 查看crontab的執行情況
查看例行的執行任務是否正常,比較尴尬的是crontab運行了,但是什麼都沒有幹,比如删除歸檔,發現一直在掃描一個空目錄,而真正的歸檔目錄已經快撐爆了。
(2) 時間同步設置NTP
使用根據公司統一配置的時間同步服務器進行時間的修正。
,
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!