网站robots.txt文件正确配置:新手完整实操教程
为什么你的网站需要一份正确的robots.txt文件
robots.txt 是网站根目录下的一个纯文本文件,它告诉搜索引擎爬虫哪些页面可以抓取、哪些不能抓取。
配置正确可以保护后台管理页、后台接口、重复页面不被收录,同时引导爬虫聚焦于核心内容。
如果配置不当——比如误禁止了整站——会导致网站从搜索结果中消失。
所以掌握 robots.txt 的正确配置是每个站长和运维人员的必修课。
准备工作:找到文件位置与确认编辑方式
在开始配置前,先确认三件事:
- 确保网站根目录可访问:通过服务器面板(如宝塔)的文件管理器,或 SSH 连上服务器,进入你网站程序的根目录(通常是
/www/wwwroot/你的域名/或/var/www/html/)。 - 检查是否存在旧文件:使用
ls -la命令查看,如果看到robots.txt,先备份(如复制一份为robots.txt.bak)。 - 明确编辑方式:如果使用宝塔面板,直接在文件管理器里右键编辑;如果使用命令行,用
nano robots.txt或vim robots.txt。
如果你还没有该文件,可以直接在根目录新建一个空白文件,命名为 robots.txt。
核心步骤:编写并放置正确的配置内容
1. 确定需要屏蔽的路径
典型的场景是隐藏后台(如 /admin/、/wp-admin/)、
屏蔽后台接口(如 /api/private/)、
避免重复内容(如搜索参数页)。以 WordPress 站点为例,
通常建议屏蔽:
/wp-admin/(管理后台)/wp-includes/(核心程序文件)/wp-content/cache/(缓存文件,无关抓取)/search/(搜索结果页,内容重复无价值)
2. 编写robots.txt内容
打开文件,输入以下示例(请根据自己网站实际路径调整):
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/cache/
Disallow: /search/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://你的域名.com/sitemap.xml
解释一下:
User-agent: *代表对所有爬虫生效。Disallow后面跟要禁止的目录(以/开头)。Allow用于在禁止的目录中允许某个特定路径(比如admin-ajax.php通常需要抓取)。Sitemap不是强制项,但加上能帮助爬虫更快发现网站地图。
3. 上传或保存文件
如果使用宝塔,编辑后点击保存;
如果通过命令行,保存并退出(nano 按 Ctrl+X → Y → Enter)。
4. 检查文件是否有语法错误
一个常见的错误是忘记空行或路径拼写错误。robots.txt 的每条指令独占一行,指令之间不要求空行,但为了可读性建议用空行分组。
注意路径大小写:大部分 Linux 系统区分大小写,所以 /Admin/ 和 /admin/ 是不同路径。
避坑指南:新手最容易犯的三个错误
错误一:写成了“禁止所有”
以下是最致命的写法:
User-agent: *
Disallow: /
这会禁止所有爬虫抓取整个网站,导致首页、文章页全部不被收录。
如果你只是测试或不再运营老域名,才考虑使用。
正常网站绝对不要这样写。
错误二:忘记写 User-agent
如果没有 User-agent 行,爬虫会忽略整个文件。
正确写法必须先声明对所有(或特定)爬虫适用。
错误三:把动态参数当作路径来禁止
例如 Disallow: /? 这种方式不规范,多数爬虫不识别通配符(除非是
p=** 结尾)。
更推荐使用 Disallow: /search/ 来屏蔽整个搜索目录。
效果验证:如何确认配置已生效
方法一:浏览器直接访问
在浏览器输入 https://你的域名.com/robots.txt,你应该能看到刚才编辑的内容。
如果返回 404 或空白,请检查文件是否位于网站根目录,以及文件名是否完全正确(不能是 robots.txt.txt 或 robots.txt.back)。
方法二:使用Google Search Console
登录 Search Console,选择你的站点 → 左侧菜单“检查 robots.txt”。
点击“测试”按钮,选择要测试的网址(例如 /wp-admin/),系统会显示该网址是否被禁止抓取。
方法三:在线工具快速检测
使用一些免费在线工具(如 tool.chinaz.com/robots)输入你网站的 robots.txt 地址,可以检测语法错误和路径覆盖情况。
方法四:观察日志(进阶)
如果你是运维,可以查看 Web 服务器访问日志,确认爬虫是否访问了被禁止的路径。
但新手可以先忽略这一步。
总结
正确配置 robots.txt 文件是保障网站SEO健康的第一步。
记住三点:
- 永远不要直接
Disallow: /除非你明确不要收录。 - 路径大小写敏感,请与实际目录保持一致。
- 编辑后务必访问测试,验证文件可正常读取并按预期生效。
如果你正在处理网站robots.txt文件正确配置,建议先按本文步骤完整执行,再根据自己的环境做微调;
遇到异常时优先回看避坑和高频问题部分。
保持简单,少即是多。