网站robots.txt文件正确配置：新手完整实操教程

知识分享

2026-06-05 11:00

17 阅读

为什么你的网站需要一份正确的robots.txt文件

robots.txt 是网站根目录下的一个纯文本文件，它告诉搜索引擎爬虫哪些页面可以抓取、哪些不能抓取。
配置正确可以保护后台管理页、后台接口、重复页面不被收录，同时引导爬虫聚焦于核心内容。
如果配置不当——比如误禁止了整站——会导致网站从搜索结果中消失。
所以掌握 robots.txt 的正确配置是每个站长和运维人员的必修课。

准备工作：找到文件位置与确认编辑方式

在开始配置前，先确认三件事：

确保网站根目录可访问：通过服务器面板（如宝塔）的文件管理器，或 SSH 连上服务器，进入你网站程序的根目录（通常是 /www/wwwroot/你的域名/ 或 /var/www/html/）。
检查是否存在旧文件：使用 ls -la 命令查看，如果看到 robots.txt，先备份（如复制一份为 robots.txt.bak）。
明确编辑方式：如果使用宝塔面板，直接在文件管理器里右键编辑；如果使用命令行，用 nano robots.txt 或 vim robots.txt。

如果你还没有该文件，可以直接在根目录新建一个空白文件，命名为 robots.txt。

核心步骤：编写并放置正确的配置内容

1. 确定需要屏蔽的路径

典型的场景是隐藏后台（如 /admin/、/wp-admin/）、
屏蔽后台接口（如 /api/private/）、
避免重复内容（如搜索参数页）。以 WordPress 站点为例，
通常建议屏蔽：

/wp-admin/（管理后台）
/wp-includes/（核心程序文件）
/wp-content/cache/（缓存文件，无关抓取）
/search/（搜索结果页，内容重复无价值）

2. 编写robots.txt内容

打开文件，输入以下示例（请根据自己网站实际路径调整）：

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/cache/
Disallow: /search/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://你的域名.com/sitemap.xml

解释一下：

User-agent: * 代表对所有爬虫生效。
Disallow 后面跟要禁止的目录（以 / 开头）。
Allow 用于在禁止的目录中允许某个特定路径（比如 admin-ajax.php 通常需要抓取）。
Sitemap 不是强制项，但加上能帮助爬虫更快发现网站地图。

3. 上传或保存文件

如果使用宝塔，编辑后点击保存；
如果通过命令行，保存并退出（nano 按 Ctrl+X → Y → Enter）。

4. 检查文件是否有语法错误

一个常见的错误是忘记空行或路径拼写错误。robots.txt 的每条指令独占一行，指令之间不要求空行，但为了可读性建议用空行分组。
注意路径大小写：大部分 Linux 系统区分大小写，所以 /Admin/ 和 /admin/ 是不同路径。

避坑指南：新手最容易犯的三个错误

错误一：写成了“禁止所有”

以下是最致命的写法：

User-agent: *
Disallow: /

这会禁止所有爬虫抓取整个网站，导致首页、文章页全部不被收录。
如果你只是测试或不再运营老域名，才考虑使用。
正常网站绝对不要这样写。

错误二：忘记写 `User-agent`

如果没有 User-agent 行，爬虫会忽略整个文件。
正确写法必须先声明对所有（或特定）爬虫适用。

错误三：把动态参数当作路径来禁止

例如 Disallow: /? p=* 这种方式不规范，多数爬虫不识别通配符（除非是 * 结尾）。
更推荐使用 Disallow: /search/ 来屏蔽整个搜索目录。

效果验证：如何确认配置已生效

方法一：浏览器直接访问

在浏览器输入 https://你的域名.com/robots.txt，你应该能看到刚才编辑的内容。
如果返回 404 或空白，请检查文件是否位于网站根目录，以及文件名是否完全正确（不能是 robots.txt.txt 或 robots.txt.back）。

方法二：使用Google Search Console

方法三：在线工具快速检测

使用一些免费在线工具（如 tool.chinaz.com/robots）输入你网站的 robots.txt 地址，可以检测语法错误和路径覆盖情况。

方法四：观察日志（进阶）

如果你是运维，可以查看 Web 服务器访问日志，确认爬虫是否访问了被禁止的路径。
但新手可以先忽略这一步。

总结

正确配置 robots.txt 文件是保障网站SEO健康的第一步。
记住三点：

永远不要直接 Disallow: / 除非你明确不要收录。
路径大小写敏感，请与实际目录保持一致。
编辑后务必访问测试，验证文件可正常读取并按预期生效。

如果你正在处理网站robots.txt文件正确配置，建议先按本文步骤完整执行，再根据自己的环境做微调；
遇到异常时优先回看避坑和高频问题部分。
保持简单，少即是多。

数据库慢查询分析优化性能：从零开始的排查指南

网站地图生成提交搜索引擎：从零搞定网站地图生成与提交百度搜索