Linux服务器磁盘错误检测从入门到实操，零基础也能上手

知识分享

2026-05-23 23:30

53 阅读

从零到一：Linux服务器磁盘错误检测完整操作指南

服务器磁盘出问题前往往有征兆，比如系统日志报I/O错误、文件读写变慢、突然重启后无法挂载分区。
本文专门针对零基础用户，一步步讲清 Linux服务器磁盘错误检测 的全流程，包括用什么工具、怎么执行命令、出现报错怎么处理，以及最终如何确认磁盘已经恢复正常。

检测前需要准备什么？

在动手查错误之前，先做两件事：

备份重要数据：磁盘检测有时需要卸载分区，极端情况下可能需要修复，提前备份能避免数据丢失。用 cp -a /源目录 /备份目录 或用宝塔面板的“备份”功能。
确认磁盘设备名称：运行 lsblk 或 fdisk -l，找到要检查的磁盘，比如 /dev/sda、/dev/sdb。新手要注意 磁盘名不是分区名，通常检测整块磁盘用 /dev/sda，如果只想检测某个分区用 /dev/sda1。

如果系统没有安装 smartmontools（SMART 检测工具），先安装：

# CentOS / RHEL
yum install smartmontools -y

# Ubuntu / Debian
apt install smartmontools -y

安装完就可以进入下一步。

快速查看磁盘健康状态——SMART 检测

SMART（Self-Monitoring, Analysis and Reporting Technology）是硬盘自带的监控系统，能提前预警物理故障。
执行以下命令检测整盘：

smartctl -H /dev/sda

输出中的 SMART overall-health self-assessment test result: PASSED 表示健康通过。
如果显示 FAILED 或带 warning，说明硬盘已有不可靠扇区，建议立即更换。

如果需要更详细的统计（比如已用时间、重分配扇区数），用：

smartctl -a /dev/sda | grep -E "Reallocated_Sector|Current_Pending_Sector|Offline_Uncorrectable"

三个关键指标：

Reallocated_Sector_Ct：已被重映射的坏扇区数量，值越大越危险。
Current_Pending_Sector：等待重映射的扇区，非零说明有潜在坏道。
Offline_Uncorrectable：无法纠正的错误扇区，非零等于判死刑。

如果你的服务器是 SSD，还可以看 Media_Wearout_Indicator，数值越低寿命越短。

文件系统层面的检测与修复——fsck

SMART 只能看硬件状态，文件系统逻辑错误（比如意外断电导致索引损坏）需要用 fsck。
注意：必须卸载分区才能运行 fsck。

假设要检查 /dev/sda1（比如挂载在 /data），先卸载：

umount /dev/sda1

然后执行检查（不修复）：

fsck -n /dev/sda1

参数 -n 表示只检查不修复，适合先看错误类型。
如果确认需要修复，用：

fsck -y /dev/sda1

-y 自动回答 yes，适合批量修复。
修复完成后重新挂载：

mount /dev/sda1 /data

如果分区是根分区 / 无法卸载，可以重启进入单用户模式，或者使用 Live CD 启动后挂载修复。
初学者建议直接让服务器商提供救援模式。

查看系统日志中的磁盘错误

很多磁盘错误已经写在日志里了。
用 dmesg 或 journalctl 直接筛选：

dmesg | grep -i "error\|fail\|bad\|i/o\|ata"

或者查看最近的内核消息：

journalctl -k --since "1 hour ago" | grep -i "sd\|ata\|disk"

常见日志关键字：

Buffer I/O error on device：读写错误，往往伴随坏扇区。
sda: Current sense 或 Unhandled error code：硬盘机械/电路故障。
ataX.00: exception Emask：ATA 接口通信异常，可能线缆松动或硬盘损坏。

如果日志频繁出现这些内容，基本可以确定磁盘需要更换了。

常见问题与避坑说明

Q：运行时 smartctl 报“Device does not support SMART”？

A：老机械硬盘或纯硬件 RAID 卡控制下的磁盘不支持直通 SMART。
如果服务器是云服务器（ECS）或 VPS，一般无法通过 SMART 检测，需改用 fio 或 dd 测试实际读写。

Q：fsck 修复后服务器还是卡顿？

A：fsck 只能修文件系统逻辑错误，物理坏道必须换盘。
建议运行 badblocks -sv /dev/sda 做全盘坏道扫描，如果发现大量坏块，尽快备份数据换硬盘。

Q：根分区无法卸载怎么办？

A：最简单的方法是重启进入单用户模式（在 GRUB 启动项按 e 编辑，添加 single），或者用系统安装盘启动后挂载修复。
操作前一定提前备份数据库和网站文件。

避坑提醒：

不要在服务器业务高峰期做全盘扫描，可能造成 I/O 拥堵导致服务中断。
不要随意对 SSD 运行 badblocks，全盘擦写会缩短寿命。SSD 优先看 SMART 的 Media_Wearout_Indicator。
云服务器磁盘出错直接联系服务商换虚拟盘，自己无法修复。

如何确认磁盘已经恢复正常？

检测修复后，至少做三步验证：

再次运行 smartctl -H /dev/sda，确认健康状态为 PASSED。
使用 dd 测试实际读写（要保证分区已挂载但尽量避开正访问的文件）：

# 写入测试（注意会覆盖目标文件）
dd if=/dev/zero of=/data/testfile bs=1M count=1000 oflag=direct

# 读取测试
dd if=/data/testfile of=/dev/null bs=1M count=1000 iflag=direct

如果命令正常结束且没有 Input/output error 输出，说明读写正常。
测试后删除临时文件 rm /data/testfile。

检查相关应用（如数据库、Web 服务）日志，确认不再出现磁盘报错。

如果你正在处理 Linux服务器磁盘错误检测，建议先按本文步骤跑一遍 SMART 和 fsck，再根据返回的信息决定是更换硬盘还是修复文件系统。
遇到不认识的报错可以分段搜索，不要急着修复，先备份数据才是第一原则。

WordPress网站移动端适配方案

Docker部署scala教程