robots.txt配置错误？这份零基础排查指南请收好

知识分享

2026-06-14 19:40

8 阅读

为什么 robots.txt 配置错误会影响网站收录

robots.txt 是放在网站根目录的一个纯文本文件，用来告诉搜索引擎哪些页面可以抓取、哪些不能。
一旦写错，轻则漏抓重要内容，重则整站被屏蔽。
很多新手在修改配置时，不经意引入 robots.txt配置错误，导致网站收录直线下降。
下面我会从最基础的检查开始，带你一步步定位并修正问题。

robots.txt 必须存放在网站根目录（例如 www.example.com/robots.txt），否则搜索引擎会忽略它。
你可以直接在浏览器访问 https://你的域名/robots.txt，如果返回 404 或显示其他页面的内容，说明文件不存在或路径不对。

如果你使用宝塔面板，登录后点击左侧“文件”，进入网站根目录（通常是 /www/wwwroot/你的域名/），查看是否已经有 robots.txt。
如果服务器是 Linux 命令行，通过 SSH 执行：

cd /var/www/html   # 换成你网站的实际根目录
ls -la robots.txt

没有的话，用 touch robots.txt 创建；
已有的话，用 cat robots.txt 查看当前内容。

很多人看过示例后，直接复制下面这段：

User-agent: *
Disallow: /

这表示“拒绝所有搜索引擎访问任何页面”，等于把整个网站关起来。
正确的做法应该是只屏蔽不需要抓取的路径，比如后台、临时文件等。
如果你不清楚该禁止哪些，可以先留空 Disallow，或者只禁止 /admin/ 这样的目录。

robots.txt 的每一行必须顶格写，每条指令单独一行，中间不能有空格。
常见的问题包括：

一个符合规范的例子：

User-agent: *
Disallow: /admin/
Disallow: /tmp/
Allow: /public/

注意：Allow 指令用于覆盖 Disallow，只在某些搜索引擎中生效，优先保证 Disallow 写对。

路径是相对域名根目录的，比如你想禁止 https://example.com/blog/draft/，应该写：

Disallow: /blog/draft/

如果写成 Disallow: /blog/draft（没有末尾斜杠），会匹配 /blog/draft 自身但不一定覆盖其子目录。
另外，路径区分大小写，/ADMIN/ 和 /admin/ 被视为不同路径，请确保与你网站实际路径一致。

修改方法（宝塔面板）：
在文件管理中找到 robots.txt，双击编辑，按照上面的规范修正内容，保存后立即生效。

修改方法（命令行）：

vim /var/www/html/robots.txt
# 按 i 进入编辑模式，修改后按 Esc，输入 :wq 保存退出

验证是否生效：

访问 https://你的域名/robots.txt，确认内容已经更新。
使用谷歌的 Robots Testing Tool（需登录 Search Console），输入你的站点 URL 并检查每条规则。如果无法使用，可以搜索“在线 robots.txt 测试工具”，将内容贴进去模拟爬虫请求。
查看搜索引擎抓取日志：如果之前因为配置错误导致大量 404 或拒绝访问，修正后需要等待搜索引擎重新抓取才能看到效果。

Q：我改了 robots.txt，但搜索引擎依然不抓取，为什么？
A：搜索引擎不会立即刷新，通常需要几天重新抓取。你可以通过 Search Console 手动请求抓取页面。另外，确认你的网站没有在 Disallow 中写入 /。

Q：可以用正则表达式吗？
A：标准 robots.txt 不支持正则，只能用 * 通配任意字符（部分搜索引擎支持），比如 Disallow: /*.pdf$ 可能被某些引擎理解为禁止所有 PDF 文件，但兼容性不强，建议直接用具体路径。

Q：我把文件放在子目录可以吗？
A：不行。搜索引擎只认 根目录/robots.txt，放在 /blog/robots.txt 会被忽略。

避坑要点：

修改前先备份原文件，防止误操作导致网站被屏蔽。
不要在 robots.txt 中暴露敏感路径（比如数据库备份文件），因为搜索引擎虽然不收录，但任何人都能访问。应通过服务器权限或 .htaccess 来保护。
如果网站同时使用 CDN，确认 CDN 是否缓存了旧的 robots.txt，必要时刷新 CDN 缓存。

如果你正在处理 robots.txt配置错误，建议先按本文步骤完整执行，再根据自己的环境做微调；
遇到异常时优先回看避坑和高频问题部分。
修正后耐心等待几天，持续监控搜索引擎的收录变化。