tft每日頭條

 > 科技

 > 系統運維巡檢模闆

系統運維巡檢模闆

科技 更新时间:2025-01-12 17:50:43

  這是學習筆記的第 1966 篇文章

  系統巡檢是對于服務巡檢的第一站,所以在這裡我們要做好第一班崗,如果系統巡檢稀裡糊塗,那麼後續的數據庫服務巡檢效果也會大打折扣。

  對于系統巡檢整體上有如下的一些部分需要注意:

  系統運維巡檢模闆(業務巡檢-系統巡檢該怎麼做)(1)

  可能整體看起來沒有太深入的理解,但是和實踐結合起來就有很多的注意事項,我們就以硬件信息-ILO狀态檢查為例來提供一種巡檢思路,iLO(Integrated Lights-Out)服務基于惠普的遠程控制卡服務,在Dell服務中叫做iDRAC(Integrated Dell Remote Access Controller),為了方便理解,在此我們暫且統稱為iLO服務。

  對于iLO服務,我們需要做如下的巡檢:

  (1) 檢查ILO可用性和使用情況

  (2) ILO模塊是否開啟

  (3) iLO密碼檢查

  (4) iLO超過最大用戶連接數限制檢查

  (5) iLO在不同的硬件産品版本和浏覽器的兼容性

  (6) iLO頁面和客戶端JAVA的版本關系

  我們逐個展開來解讀一下:

  (1) 檢查iLO可用性和使用情況

  如果擁有對服務器資源的管理權限,對于ILO還是要驗證一下,大體有幾種情況。

  (2) iLO模塊是否開啟

  這個可以聯系系統組的同學幫你開啟,也可以參考下面的步驟。

  #modprobe ipmi_watchdog

  #modprobe ipmi_poweroff

  # modprobe ipmi_devintf

  #chkconfig ipmi on

  (3) iLO密碼檢查

  可以使用下面的命令來重置密碼

  /usr/bin/ipmitool user set password 2 'xunjian'

  (4) iLO超過最大用戶連接數限制檢查

  如果用戶名,密碼正确,如果上一次登錄沒有正常退出,可能會有下面的報錯。

  RAC0218:已達到用戶會話的最大數

  這個時候可以重啟iLO來達到目标。

  ipmitool mc reset cold,這個過程會持續幾分鐘。

  (5) iLO在不同的硬件産品版本和浏覽器的兼容性

  ILO在不同的硬件産品版本中浏覽器也有一些使用差異,有些版本使用IE低版本可以,有些可以使用chrome,firefox,有些則不适用。

  (6) iLO頁面和JAVA的版本關系

  這兩點比較微妙,但是在實際中碰到問題的時候更多,特别是對于Java,如果查看新版本的硬件,過高的版本是不推薦的,因為安全策略太高,導緻初始化失敗,得用JAVA7及以下的版本了。

  在其他層面,我也做一些闡述。

  在主機層面需要注意如下的兩點:

  (1) 操作系統版本

  操作系統的版本也需要提前規劃,如果有些服務的版本過舊,需要考慮升級到一個較新的穩定版本,比如RedHat 5是個相對較舊的版本,需要盡可能升級到6U8以上版本。

  (2) 操作系統内核參數

  操作系統内核參數可以作為一個重要的檢查項,當然對于主庫而言可能重啟不現實,但是提前準備好,在下次重啟的時候能夠省事省力,對于備庫而言,也可以提早準備。

  在安全檢查方面,有如下的幾點補充:

  (1) 系統文件權限

  對于部分文件,需要考慮文件的權限,保證不會惡意篡改。比如設定這些關鍵文件和配置文件的隻讀權限,比如/etc/passwd,/etc/shadow,/etc/group等等

  (2) 備份保留情況,是否有異機備份

  這個需要結合目前的系統使用情況,如果數據庫是非歸檔,測試環境,可以考慮異機備份。對于一些關鍵業務,在有災備的情況下,也可以額外增加部分的邏輯備份。

  (3) 檢查操作系統防火牆情況

  對于操作系統中的防火牆設定最好能夠提供完整的備份,到時候可以在災備切換的時候用到。

  如果存在特殊的網絡設置情況,需要提前标注,要不幫你處理問題的同事會踩到一大坑。

  在系統配置方面,有以下的補充:

  (1) swap使用情況

  swap的監控還是比較重要,要不swap争用較高,如果剩餘内存不足,很容易觸發oom-killer

  (2) 文件的分區和規劃情況

  對于文件的分區和使用情況也需要格外關注,對于一些過舊的曆史文件可以壓縮或者删除。是否還在使用很陳舊的文件系統。

  在系統任務方面,有如下的幾點補充:

  (1) 查看crontab的執行情況

  查看例行的執行任務是否正常,比較尴尬的是crontab運行了,但是什麼都沒有幹,比如删除歸檔,發現一直在掃描一個空目錄,而真正的歸檔目錄已經快撐爆了。

  (2) 時間同步設置NTP

  使用根據公司統一配置的時間同步服務器進行時間的修正。

  系統運維巡檢模闆(業務巡檢-系統巡檢該怎麼做)(2)

  ,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved