如果您正在運行 Linux 服務器并且重視正常運行時間和穩定性,那么本服務器維護指南將幫助您保持正常運行。出于各種原因,最好定期進行維護和檢查。作為系統管理員并發現本可以很容易地防止導致停機的問題并不有趣。
Linux 服務器維護指南
- 檢查磁盤使用情況: 導致停機和問題的最常見的事情之一是文件系統填滿并達到 100% 的使用率。使用 80% 通常是警告,使用 90% 是關鍵。為軟件包、數據庫、站點文件、日志等分配足夠的空間非常重要。如果文件系統變得太滿,您將不得不在為時已晚和服務之前爭先恐后地尋找要刪除的文件和日志開始掛起。要檢查您的文件系統使用情況,您可以使用“df”命令,例如:df -h 將以人類可讀的格式顯示使用情況。
- 檢查 RAID 陣列: 檢查 RAID 陣列的狀態很重要。如果陣列中缺少成員磁盤,則應盡快更換它。根據您的 RAID 控制器,您可以下載和使用單獨的實用程序。例如:Adaptec 控制器將使用 arcconf,而 LSI 控制器可能需要 MegaCLI 或 tw_cli,具體取決于型號。最好參考制造商的文檔以獲取指南。
- 檢查存儲設備智能統計數據: 密切關注存儲設備的智能統計數據可以警告您發生故障前。重新分配的、當前未決或不可糾正的部門通常會引起關注。數字越高,您應該越早更換磁盤。通電時間也可能需要尋找。我們更換了超過 40,000 通電時間的驅動器。在 Linux 服務器上,您可以使用“smartctl”命令運行測試并檢查統計信息。可以在此處找到有關 smartctl 的更多信息。
- 驗證備份是否正常工作: 檢查備份是否正常運行是一種很好的做法。您還應該經常測試備份的恢復,并驗證它們在測試環境中是否按預期工作。
- 確保應用安全補?。?修補在您的服務器上運行的軟件中的漏洞是重中之重。最好訂閱您的發行版安全公告郵件列表,以便在您需要修補時收到通知。您可以使用操作系統包管理器(例如 yum 或 apt)來安裝和升級新包。
- 檢查遠程管理: 根據您的服務器制造商,IPMI、iLO 和 iDRAC 等遠程管理工具已被證明是有用的。當您需要使用它們時,您應該為它們做好準備。當無法通過 SSH 連接到服務器時,遠程控制臺已經保存了很多。
- 檢查硬件問題:查看 syslog 和 IPMI 事件日志之類的內容可以讓您知道何時出現問題。內存錯誤、過熱和電源故障是需要快速響應的一些示例。根據損壞的硬件組件,記錄的條目會有所不同。
- 檢查軟件錯誤: 應定期監控軟件錯誤日志和系統日志。軟件有時會達到配置的限制,當內存不足時會激活 OOM 殺手。有時這可能會被忽視。根據您在哪里找到這些日志的軟件和配置的日志文件輸出會有所不同。但是,大多數日志都可以在 /var/log 目錄中找到。
- 查看訪問權限: 檢查哪些用戶和個人應有權訪問服務器并根據需要修改該訪問權限??梢栽谶@里找到您應該查看的文件的一個很好的概述。
- 使用強密碼: 無論是隨機生成還是使用“diceware”方法制作的強密碼都是必須的。不要縮短密碼并使用低熵組合。