服务器卡顿死机排查:CPU内存磁盘故障定位方法

1. 初步观察与信息收集

当服务器出现卡顿或死机时,首先通过远程管理卡(如iLO、iDRAC)或本地控制台查看系统状态。记录错误日志、系统负载、进程状态等关键信息。

2. CPU故障排查

2.1 症状

  • 系统响应缓慢,CPU使用率持续100%
  • 进程卡死或大量僵尸进程
  • 系统日志中出现“soft lockup”或“hard lockup”错误

2.2 排查步骤

  1. 使用tophtop查看CPU使用率,按CPU占用排序进程。
  2. 使用ps aux --sort=-%cpu列出占用CPU最多的进程。
  3. 检查是否存在异常进程(如挖矿程序),使用kill终止。
  4. 使用strace -p 跟踪进程系统调用,分析卡住原因。
  5. 查看/var/log/messagesdmesg中的CPU相关错误。
  6. 若怀疑硬件故障,运行mcelog(如果支持)或检查BIOS日志。

3. 内存故障排查

3.1 症状

  • 系统频繁使用交换分区(swap),内存使用率接近100%
  • OOM Killer日志,进程被杀死
  • 系统响应慢,内存错误(如ECC错误)

3.2 排查步骤

  1. 使用free -h查看内存总量、已用、可用及swap使用情况。
  2. 使用vmstat 1 5观察内存页交换(si/so)是否频繁。
  3. 使用top按内存占用排序(按M键),找出内存消耗大的进程。
  4. 使用smemps_mem更精确地查看进程内存占用。
  5. 检查/var/log/messages中是否有OOM Killer记录。
  6. 运行memtestermemtest86+进行内存硬件检测(需重启)。

4. 磁盘故障排查

4.1 症状

  • 磁盘I/O等待高(iowait),系统响应慢
  • 磁盘读写错误,文件系统损坏
  • 磁盘空间不足

4.2 排查步骤

  1. 使用df -h检查磁盘空间使用率。
  2. 使用iostat -x 1查看磁盘I/O统计,关注%util、await等指标。
  3. 使用iotoppidstat -d找出I/O密集的进程。
  4. 使用dmesg | grep -i error检查磁盘硬件错误。
  5. 使用smartctl -a /dev/sda检查S.M.A.R.T.状态。
  6. 如果怀疑文件系统问题,使用fsck进行修复(需卸载分区)。

5. 综合排查工具

  • sar:历史性能数据收集,可回放CPU、内存、磁盘等使用情况。
  • perf:性能分析工具,用于CPU、内存、系统调用等。
  • strace/ltrace:跟踪系统调用和库调用。
  • netstat/ss:检查网络连接状态,排除网络问题。

6. 故障定位总结

资源主要工具关键指标
CPUtop, htop, ps, strace, mcelog%CPU, load average, soft lockup
内存free, vmstat, top, smem, memtester内存使用率, swap使用, OOM
磁盘iostat, iotop, df, smartctl, fsck%util, await, 空间使用率, 错误日志

建议定期进行健康检查,并配置监控告警(如Nagios、Zabbix)以提前发现潜在问题。

分享到:
上一篇
网站服务器与带宽选购指南
下一篇
个人搭建小程序最低服务器配置要求
1
系统公告

高考专属福利来袭|凭准考证免费领香港 CN2 云服务器

值高考落幕之际,泽御云开启考生专属回馈 + 产品限时特惠双重活动,助力学子暑期学习建站 高考 考生专属福利 全体应届高考生,凭高考准考证即可免费申领【香港 CN2 轻量云服务器,4 核 4G AMD 处理器】,免费使用周期 30 天,可用于搭建个人站点、编程实操、技术实训,祝各位考生金榜题名,前程似锦! 泽御云资质齐全合规自营机房,线路覆盖香港 CN2、国内 BGP、内蒙电信、美国精品线路,售后全天候技术支持。 官方网站:www.zeyuyun.com,活动限时有效,优惠逾期不再保留。
服务中心
客服
在线客服
24小时为您服务
咨询
联系我们
联系我们,为您的业务提供专属服务。
24/7 技术支持
如果您遇到寻求进一步的帮助,请过工单与我们进行联系。
24/7 即时支持
泽御云
售前客服
泽御云
泽御云
售后客服
泽御云
技术支持
评价
您对当前页面的整体感受是否满意?
😞
非常不满意
😕
不满意
😐
一般
🙂
满意
😊
非常满意