从零开始学服务器运维:每天必做的5项健康检查

前置准备


开始之前,请确认以下条件已满足:



  • 一台运行 Linux(CentOS / Ubuntu / Debian 均可)的服务器,已开启 SSH 远程登录。

  • 本地电脑安装好 SSH 客户端:Windows 推荐 PuTTY 或系统自带 PowerShell,Mac / Linux 直接用终端。

  • 拥有服务器的 root 密码或 sudo 权限(普通用户使用 sudo 时需输入密码)。

  • 服务器已正常联网,确保命令能执行。


小提示:如果你使用宝塔面板,也可通过面板的“终端”功能直接输入命令,效果一样。

分步操作


第一步:查看系统运行时长与负载(uptime)


uptime

输出示例:


 10:23:45 up 12 days,  3:15,  3 users,  load average: 0.08, 0.12, 0.15


  • up 12 days 表示服务器已连续运行12天。

  • load average 三个数值分别代表过去1分钟、5分钟、15分钟的平均负载。负载值接近CPU核心数时表示压力较大(例如2核CPU,负载接近2需留意)。


第二步:检查内存使用情况(free -h)


free -h

输出示例:


              total        used        free      shared  buff/cache   available
Mem: 7.7G 1.2G 5.0G 120M 1.5G 6.2G
Swap: 2.0G 0B 2.0G


  • 重点看 available 列,“可用内存”越接近0说明内存越紧张

  • Swap 如果使用较多(比如超过几百MB),建议排查内存泄漏或考虑升级内存。


第三步:检查磁盘空间(df -h)


df -h

输出示例:


Filesystem      Size  Used Avail Use% Mounted on
/dev/vda1 40G 15G 25G 38% /


  • 分区根目录 / 的使用率达到 90%以上 时容易导致服务异常,需及时清理或扩容。

  • 重点关注 //var/home 等常用目录。


第四步:查看进程资源消耗(top)


top

进入交互界面后,按 1 可以查看每个CPU核心的负载,按 q 退出。


重点看:



  • %Cpu(s):id 列表示空闲百分比,id 值长期低于20%说明CPU吃紧

  • RES 列:进程占用的物理内存(单位:KB)。找占用高的 PID 做进一步分析。


第五步:查看系统日志(journalctl 或 tail)


# 查看最近10条系统日志
journalctl -xe -n 10

或者实时追踪关键日志文件

tail -f /var/log/syslog # Ubuntu
tail -f /var/log/messages # CentOS



  • 日志中频繁出现 errorfailedout of memory 等关键词时,说明系统存在异常。

  • Ctrl+C 停止实时追踪。


避坑指南



  1. 命令找不到? 很多精简版镜像未安装 topfree,可运行:


   yum install procps-ng -y   # CentOS
apt install procps -y # Ubuntu


  1. df -h 显示不准? 如果使用 ZFS 或 Btrfs 文件系统,建议改用 df -Th 查看文件系统类型。
  2. top 显示乱码?
    需要在 SSH 客户端设置 UTF-8 编码,或使用 htop(更美观,需额外安装)。
  3. 日志太大怎么办? 定期使用 logrotate 自动压缩轮转,或手动清理:


   sudo journalctl --vacuum-size=100M   # 保留最近100MB日志

高频问题解答


Q1:负载高但 CPU 空闲是为什么?

可能原因:磁盘 I/O 瓶颈(iowait 高)或大量中断。可用 iostat -x 1 观察磁盘响应时间。


Q2:内存显示 used 很少但 available 也很少?

Linux 会尽量使用空闲内存做缓存(buff/cache),这部分在需要时可释放,所以主要看 available。


Q3:没有 root 密码,只有普通用户怎么办?

在每个命令前加 sudo(如 sudo uptime),前提是该用户在 sudoers 组中。


Q4:这些命令能自动运行并发送报告吗?

新手可以先手动练习一周,之后可以使用 crontab 定时执行脚本,如每天早8点将结果邮件发送给自己。


效果验证


执行完上述5步后,进入 top 界面,按 c 可看完整命令行,确认系统负载、内存、磁盘三个核心指标都在正常范围。

连续观察3天,每天同一时间记录 load average 的1分钟值,如果波动不超过0.5且磁盘使用率未增长,说明你的服务器运维检查流程已正常运转。


如果你正在学习服务器运维,建议把这5条命令保存为一个脚本 ~/health_check.sh,每日执行一次。

遇到异常时优先回看本文的避坑和高频问题部分,绝大多数基础故障都能快速定位。

分享到:
上一篇
Docker手动安装Linux实战:从下载到运行容器的完整指
下一篇
宝塔面板11.7.0一键安装教程:从零开始轻松部署网站环境
1
系统公告

泽御云五一特惠活动🔥

泽御云持证合规运营,资质齐全可查,长久稳定! 五一限时多重福利同步开启: ✅ 香港 2 核 2G 云服务器超值拼团,低价入手团长免费 ✅ 4 核 4G 多机房年付拼团,性价比拉满 ✅ 内蒙古新区限时 7 折(zeyuyunnmg)特惠,专属优惠码锁价续费 ✅ 全站通用 75 折优惠,老用户充值享专属赠金 官方站点:zeyuyun.com 合规资质齐全|售后有保障|活动限时错过不再有
服务中心
客服
在线客服
24小时为您服务
咨询
联系我们
联系我们,为您的业务提供专属服务。
24/7 技术支持
如果您遇到寻求进一步的帮助,请过工单与我们进行联系。
24/7 即时支持
泽御云
售前客服
泽御云
泽御云
售后客服
泽御云
技术支持
评价
您对当前页面的整体感受是否满意?
😞
非常不满意
😕
不满意
😐
一般
🙂
满意
😊
非常满意