服务器卡顿死机排查:CPU内存磁盘故障定位方法

1. 初步观察与信息收集

当服务器出现卡顿或死机时,首先通过远程管理卡(如iLO、iDRAC)或本地控制台查看系统状态。记录错误日志、系统负载、进程状态等关键信息。

2. CPU故障排查

2.1 症状

  • 系统响应缓慢,CPU使用率持续100%
  • 进程卡死或大量僵尸进程
  • 系统日志中出现“soft lockup”或“hard lockup”错误

2.2 排查步骤

  1. 使用tophtop查看CPU使用率,按CPU占用排序进程。
  2. 使用ps aux --sort=-%cpu列出占用CPU最多的进程。
  3. 检查是否存在异常进程(如挖矿程序),使用kill终止。
  4. 使用strace -p 跟踪进程系统调用,分析卡住原因。
  5. 查看/var/log/messagesdmesg中的CPU相关错误。
  6. 若怀疑硬件故障,运行mcelog(如果支持)或检查BIOS日志。

3. 内存故障排查

3.1 症状

  • 系统频繁使用交换分区(swap),内存使用率接近100%
  • OOM Killer日志,进程被杀死
  • 系统响应慢,内存错误(如ECC错误)

3.2 排查步骤

  1. 使用free -h查看内存总量、已用、可用及swap使用情况。
  2. 使用vmstat 1 5观察内存页交换(si/so)是否频繁。
  3. 使用top按内存占用排序(按M键),找出内存消耗大的进程。
  4. 使用smemps_mem更精确地查看进程内存占用。
  5. 检查/var/log/messages中是否有OOM Killer记录。
  6. 运行memtestermemtest86+进行内存硬件检测(需重启)。

4. 磁盘故障排查

4.1 症状

  • 磁盘I/O等待高(iowait),系统响应慢
  • 磁盘读写错误,文件系统损坏
  • 磁盘空间不足

4.2 排查步骤

  1. 使用df -h检查磁盘空间使用率。
  2. 使用iostat -x 1查看磁盘I/O统计,关注%util、await等指标。
  3. 使用iotoppidstat -d找出I/O密集的进程。
  4. 使用dmesg | grep -i error检查磁盘硬件错误。
  5. 使用smartctl -a /dev/sda检查S.M.A.R.T.状态。
  6. 如果怀疑文件系统问题,使用fsck进行修复(需卸载分区)。

5. 综合排查工具

  • sar:历史性能数据收集,可回放CPU、内存、磁盘等使用情况。
  • perf:性能分析工具,用于CPU、内存、系统调用等。
  • strace/ltrace:跟踪系统调用和库调用。
  • netstat/ss:检查网络连接状态,排除网络问题。

6. 故障定位总结

资源主要工具关键指标
CPUtop, htop, ps, strace, mcelog%CPU, load average, soft lockup
内存free, vmstat, top, smem, memtester内存使用率, swap使用, OOM
磁盘iostat, iotop, df, smartctl, fsck%util, await, 空间使用率, 错误日志

建议定期进行健康检查,并配置监控告警(如Nagios、Zabbix)以提前发现潜在问题。

分享到:
上一篇
网站服务器与带宽选购指南
下一篇
个人搭建小程序最低服务器配置要求
1
系统公告

泽御云五一特惠活动🔥

泽御云持证合规运营,资质齐全可查,长久稳定! 五一限时多重福利同步开启: ✅ 香港 2 核 2G 云服务器超值拼团,低价入手团长免费 ✅ 4 核 4G 多机房年付拼团,性价比拉满 ✅ 内蒙古新区限时 7 折(zeyuyunnmg)特惠,专属优惠码锁价续费 ✅ 全站通用 75 折优惠,老用户充值享专属赠金 官方站点:zeyuyun.com 合规资质齐全|售后有保障|活动限时错过不再有
服务中心
客服
在线客服
24小时为您服务
咨询
联系我们
联系我们,为您的业务提供专属服务。
24/7 技术支持
如果您遇到寻求进一步的帮助,请过工单与我们进行联系。
24/7 即时支持
泽御云
售前客服
泽御云
泽御云
售后客服
泽御云
技术支持
评价
您对当前页面的整体感受是否满意?
😞
非常不满意
😕
不满意
😐
一般
🙂
满意
😊
非常满意