网站robots.txt文件正确配置:新手完整实操教程

为什么你的网站需要一份正确的robots.txt文件

robots.txt 是网站根目录下的一个纯文本文件,它告诉搜索引擎爬虫哪些页面可以抓取、哪些不能抓取。
配置正确可以保护后台管理页、后台接口、重复页面不被收录,同时引导爬虫聚焦于核心内容。
如果配置不当——比如误禁止了整站——会导致网站从搜索结果中消失。
所以掌握 robots.txt 的正确配置是每个站长和运维人员的必修课。

准备工作:找到文件位置与确认编辑方式

在开始配置前,先确认三件事:

  1. 确保网站根目录可访问:通过服务器面板(如宝塔)的文件管理器,或 SSH 连上服务器,进入你网站程序的根目录(通常是 /www/wwwroot/你的域名//var/www/html/)。
  2. 检查是否存在旧文件:使用 ls -la 命令查看,如果看到 robots.txt,先备份(如复制一份为 robots.txt.bak)。
  3. 明确编辑方式:如果使用宝塔面板,直接在文件管理器里右键编辑;如果使用命令行,用 nano robots.txtvim robots.txt

如果你还没有该文件,可以直接在根目录新建一个空白文件,命名为 robots.txt

核心步骤:编写并放置正确的配置内容

1. 确定需要屏蔽的路径

典型的场景是隐藏后台(如 /admin//wp-admin/)、
屏蔽后台接口(如 /api/private/)、
避免重复内容(如搜索参数页)。以 WordPress 站点为例
通常建议屏蔽:

  • /wp-admin/(管理后台)
  • /wp-includes/(核心程序文件)
  • /wp-content/cache/(缓存文件,无关抓取)
  • /search/(搜索结果页,内容重复无价值)

2. 编写robots.txt内容

打开文件,输入以下示例(请根据自己网站实际路径调整):

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/cache/
Disallow: /search/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://你的域名.com/sitemap.xml

解释一下:

  • User-agent: * 代表对所有爬虫生效。
  • Disallow 后面跟要禁止的目录(以 / 开头)。
  • Allow 用于在禁止的目录中允许某个特定路径(比如 admin-ajax.php 通常需要抓取)。
  • Sitemap 不是强制项,但加上能帮助爬虫更快发现网站地图。

3. 上传或保存文件

如果使用宝塔,编辑后点击保存;
如果通过命令行,保存并退出(nanoCtrl+XYEnter)。

4. 检查文件是否有语法错误

一个常见的错误是忘记空行路径拼写错误robots.txt 的每条指令独占一行,指令之间不要求空行,但为了可读性建议用空行分组
注意路径大小写:大部分 Linux 系统区分大小写,所以 /Admin//admin/ 是不同路径。

避坑指南:新手最容易犯的三个错误

错误一:写成了“禁止所有”

以下是最致命的写法:

User-agent: *
Disallow: /

这会禁止所有爬虫抓取整个网站,导致首页、文章页全部不被收录。
如果你只是测试或不再运营老域名,才考虑使用。
正常网站绝对不要这样写。

错误二:忘记写 User-agent

如果没有 User-agent 行,爬虫会忽略整个文件。
正确写法必须先声明对所有(或特定)爬虫适用。

错误三:把动态参数当作路径来禁止

例如 Disallow: /?
p=*
这种方式不规范,多数爬虫不识别通配符(除非是 * 结尾)。
更推荐使用 Disallow: /search/ 来屏蔽整个搜索目录。

效果验证:如何确认配置已生效

方法一:浏览器直接访问

在浏览器输入 https://你的域名.com/robots.txt,你应该能看到刚才编辑的内容。
如果返回 404 或空白,请检查文件是否位于网站根目录,以及文件名是否完全正确(不能是 robots.txt.txtrobots.txt.back)。

方法二:使用Google Search Console

登录 Search Console,选择你的站点 → 左侧菜单“检查 robots.txt”。
点击“测试”按钮,选择要测试的网址(例如 /wp-admin/),系统会显示该网址是否被禁止抓取。

方法三:在线工具快速检测

使用一些免费在线工具(如 tool.chinaz.com/robots)输入你网站的 robots.txt 地址,可以检测语法错误和路径覆盖情况。

方法四:观察日志(进阶)

如果你是运维,可以查看 Web 服务器访问日志,确认爬虫是否访问了被禁止的路径。
但新手可以先忽略这一步。

总结

正确配置 robots.txt 文件是保障网站SEO健康的第一步。
记住三点:

  1. 永远不要直接 Disallow: / 除非你明确不要收录。
  2. 路径大小写敏感,请与实际目录保持一致。
  3. 编辑后务必访问测试,验证文件可正常读取并按预期生效。

如果你正在处理网站robots.txt文件正确配置,建议先按本文步骤完整执行,再根据自己的环境做微调;
遇到异常时优先回看避坑和高频问题部分。
保持简单,少即是多。

分享到:
上一篇
数据库慢查询分析优化性能:从零开始的排查指南
下一篇
网站地图生成提交搜索引擎:从零搞定网站地图生成与提交百度搜索
1
系统公告

高考专属福利来袭|凭准考证免费领香港 CN2 云服务器

值高考落幕之际,泽御云开启考生专属回馈 + 产品限时特惠双重活动,助力学子暑期学习建站 高考 考生专属福利 全体应届高考生,凭高考准考证即可免费申领【香港 CN2 轻量云服务器,4 核 4G AMD 处理器】,免费使用周期 30 天,可用于搭建个人站点、编程实操、技术实训,祝各位考生金榜题名,前程似锦! 泽御云资质齐全合规自营机房,线路覆盖香港 CN2、国内 BGP、内蒙电信、美国精品线路,售后全天候技术支持。 官方网站:www.zeyuyun.com,活动限时有效,优惠逾期不再保留。
服务中心
客服
在线客服
24小时为您服务
咨询
联系我们
联系我们,为您的业务提供专属服务。
24/7 技术支持
如果您遇到寻求进一步的帮助,请过工单与我们进行联系。
24/7 即时支持
泽御云
售前客服
泽御云
泽御云
售后客服
泽御云
技术支持
评价
您对当前页面的整体感受是否满意?
😞
非常不满意
😕
不满意
😐
一般
🙂
满意
😊
非常满意