WP网站robots.txt设置
WordPress网站robots.txt设置实操:从创建到验证的完整步骤
很多新手站长搞不清 robots.txt 到底怎么配,配错了轻则搜索引擎漏抓页面,重则把整站屏蔽。
本文按零基础可执行的逻辑,一步步带你完成 WordPress 网站的 robots.txt 设置,避免踩坑。
你需要提前准备什么?
- 网站根目录访问权限:通过宝塔面板的“文件”功能,或 FTP/SFTP 客户端,或服务器 SSH 登录。
- 确认网站环境:Nginx 或 Apache 均适用,重点在于文件放对位置。
- 备份原有文件:如果已有
robots.txt,先用cp robots.txt robots.txt.bak备份。
创建或编辑robots.txt文件
方法一:宝塔面板(推荐新手)
- 登录宝塔后台,左侧菜单点击“文件”。
- 进入网站根目录(一般是
/www/wwwroot/你的域名/)。 - 如果已有
robots.txt,双击编辑;没有则点击“新建文件”,文件名输入robots.txt。 - 粘贴下方示例规则,点击“保存”。
方法二:SSH命令行
cd /www/wwwroot/你的域名
nano robots.txt
粘贴内容后,按 Ctrl+O 保存,Ctrl+X 退出。
推荐的robots.txt配置规则
以下是一份安全可用的 WordPress 默认规则,允许所有搜索引擎抓取主要页面,屏蔽不必要的后台路径。
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /feed/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://你的域名/sitemap.xml
解释:
User-agent: *– 作用于所有爬虫。Disallow后面的是不想被抓取的目录,例如/wp-admin/、/wp-includes/。Allow例外放行某些必要文件。Sitemap告诉爬虫站点地图地址,有利于收录。
如果你只需要开放所有内容,写下面两行即可:
User-agent: *
Disallow:
(注意 Disallow: 后面留空代表允许全站。
)
高频问题与避坑说明
问题1:修改后未生效?
- 缓存问题:浏览器或CDN可能缓存了旧文件,按
Ctrl+F5强制刷新再访问https://你的域名/robots.txt查看。 - 路径问题:文件必须放在域名根目录,不要在子文件夹创建。
问题2:不想手动维护?用插件
如果怕写错规则,可以直接安装 Yoast SEO 或 Rank Math,它们自带 robots.txt 可视化编辑器,修改后自动保存。
避坑:别屏蔽关键资源
- 不要禁止所有抓取:
User-agent: * Disallow: /会直接导致整站不被收录。 - 不要屏蔽CSS/JS:爬虫需要加载样式和脚本才能正确渲染页面,影响排名。
- 英文路径注意大小写:
/wp-admin/和/WP-Admin/是两回事,保持小写。
如何验证配置生效?
- 浏览器访问验证:直接在地址栏输入
https://你的域名/robots.txt,应该看到你刚刚编辑的内容。 - 搜索引擎测试工具:
- 百度站长平台 → “ robots.txt 检测”。
- Google Search Console → “ robots.txt 测试工具”。
- 用wget命令(SSH环境):
wget -q -O- --header="User-Agent: Googlebot" https://你的域名/robots.txt
如果输出与你预期一致,则设置成功。
写在最后
WordPress网站robots.txt设置其实不难,关键是文件位置正确、规则清晰。
按照本文步骤操作,你就能避免常见错误。
如果后续网站结构变化,记得同步更新规则。
建议每次修改后都去站长平台检测一遍,确认没有屏蔽重要页面。
如果遇到任何异常,先检查文件内容是否被别的地方覆盖(比如CDN),再查Nginx/Apache的配置。