robots.txt配置错误?这份零基础排查指南请收好

为什么 robots.txt 配置错误会影响网站收录

robots.txt 是放在网站根目录的一个纯文本文件,用来告诉搜索引擎哪些页面可以抓取、哪些不能。
一旦写错,轻则漏抓重要内容,重则整站被屏蔽。
很多新手在修改配置时,不经意引入 robots.txt配置错误,导致网站收录直线下降。
下面我会从最基础的检查开始,带你一步步定位并修正问题。

第一步:找到并确认 robots.txt 文件的位置

robots.txt 必须存放在网站根目录(例如 www.example.com/robots.txt),否则搜索引擎会忽略它。
你可以直接在浏览器访问 https://你的域名/robots.txt,如果返回 404 或显示其他页面的内容,说明文件不存在或路径不对。

如果你使用宝塔面板,登录后点击左侧“文件”,进入网站根目录(通常是 /www/wwwroot/你的域名/),查看是否已经有 robots.txt
如果服务器是 Linux 命令行,通过 SSH 执行:

cd /var/www/html   # 换成你网站的实际根目录
ls -la robots.txt

没有的话,用 touch robots.txt 创建;
已有的话,用 cat robots.txt 查看当前内容。

第二步:识别最常见的几种配置错误

1. 错误地禁止了所有爬虫

很多人看过示例后,直接复制下面这段:

User-agent: *
Disallow: /

这表示“拒绝所有搜索引擎访问任何页面”,等于把整个网站关起来。
正确的做法应该是只屏蔽不需要抓取的路径,比如后台、临时文件等。
如果你不清楚该禁止哪些,可以先留空 Disallow,或者只禁止 /admin/ 这样的目录。

2. 语法格式问题

robots.txt 的每一行必须顶格写,每条指令单独一行,中间不能有空格。
常见的问题包括:

  • User-agent:Disallow: 的大小写错误(标准是首字母大写,但通常不区分)
  • 冒号后面缺少空格(允许但不推荐)
  • 空行过多或缺少换行符

一个符合规范的例子:

User-agent: *
Disallow: /admin/
Disallow: /tmp/
Allow: /public/

注意:Allow 指令用于覆盖 Disallow,只在某些搜索引擎中生效,优先保证 Disallow 写对。

3. 路径写错导致不该屏蔽的被屏蔽

路径是相对域名根目录的,比如你想禁止 https://example.com/blog/draft/,应该写:

Disallow: /blog/draft/

如果写成 Disallow: /blog/draft(没有末尾斜杠),会匹配 /blog/draft 自身但不一定覆盖其子目录。
另外,路径区分大小写,/ADMIN//admin/ 被视为不同路径,请确保与你网站实际路径一致。

第三步:修改 robots.txt 并验证效果

修改方法(宝塔面板):
在文件管理中找到 robots.txt,双击编辑,按照上面的规范修正内容,保存后立即生效。

修改方法(命令行):

vim /var/www/html/robots.txt
# 按 i 进入编辑模式,修改后按 Esc,输入 :wq 保存退出

验证是否生效:

  1. 访问 https://你的域名/robots.txt,确认内容已经更新。
  2. 使用谷歌的 Robots Testing Tool(需登录 Search Console),输入你的站点 URL 并检查每条规则。如果无法使用,可以搜索“在线 robots.txt 测试工具”,将内容贴进去模拟爬虫请求。
  3. 查看搜索引擎抓取日志:如果之前因为配置错误导致大量 404 或拒绝访问,修正后需要等待搜索引擎重新抓取才能看到效果。

高频问题解答与避坑总结

Q:我改了 robots.txt,但搜索引擎依然不抓取,为什么?
A:搜索引擎不会立即刷新,通常需要几天重新抓取。你可以通过 Search Console 手动请求抓取页面。另外,确认你的网站没有在 Disallow 中写入 /

Q:可以用正则表达式吗?
A:标准 robots.txt 不支持正则,只能用 * 通配任意字符(部分搜索引擎支持),比如 Disallow: /*.pdf$ 可能被某些引擎理解为禁止所有 PDF 文件,但兼容性不强,建议直接用具体路径。

Q:我把文件放在子目录可以吗?
A:不行。搜索引擎只认 根目录/robots.txt,放在 /blog/robots.txt 会被忽略。

避坑要点:

  • 修改前先备份原文件,防止误操作导致网站被屏蔽。
  • 不要在 robots.txt 中暴露敏感路径(比如数据库备份文件),因为搜索引擎虽然不收录,但任何人都能访问。应通过服务器权限或 .htaccess 来保护。
  • 如果网站同时使用 CDN,确认 CDN 是否缓存了旧的 robots.txt,必要时刷新 CDN 缓存。

如果你正在处理 robots.txt配置错误,建议先按本文步骤完整执行,再根据自己的环境做微调;
遇到异常时优先回看避坑和高频问题部分。
修正后耐心等待几天,持续监控搜索引擎的收录变化。

分享到:
上一篇
爬虫抓取失败原因排查指南:从零开始找出问题
下一篇
手把手教你完成sitemap.xml提交 加速搜索引擎收录
1
系统公告

高考专属福利来袭|凭准考证免费领香港 CN2 云服务器

值高考落幕之际,泽御云开启考生专属回馈 + 产品限时特惠双重活动,助力学子暑期学习建站 高考 考生专属福利 全体应届高考生,凭高考准考证即可免费申领【香港 CN2 轻量云服务器,4 核 4G AMD 处理器】,免费使用周期 30 天,可用于搭建个人站点、编程实操、技术实训,祝各位考生金榜题名,前程似锦! 泽御云资质齐全合规自营机房,线路覆盖香港 CN2、国内 BGP、内蒙电信、美国精品线路,售后全天候技术支持。 官方网站:www.zeyuyun.com,活动限时有效,优惠逾期不再保留。
服务中心
客服
在线客服
24小时为您服务
咨询
联系我们
联系我们,为您的业务提供专属服务。
24/7 技术支持
如果您遇到寻求进一步的帮助,请过工单与我们进行联系。
24/7 即时支持
泽御云
售前客服
泽御云
泽御云
售后客服
泽御云
技术支持
评价
您对当前页面的整体感受是否满意?
😞
非常不满意
😕
不满意
😐
一般
🙂
满意
😊
非常满意