Robots.txt：搜索引擎优化的最佳实践

已发表: 2022-04-28

当谈到最大化在线网站流量时，我们都希望通过检查我们的搜索排名以及如何改进来做到这一点。当然，游戏的名称是搜索引擎优化，以及游戏规则，它们并不总是容易检查的。

有很多简单的事情，内容和关键字，可以为某些网站带来优势和竞争优势。但是这一切的基础呢？这可以在您网站的 robots.txt 文件中找到。

搜索引擎有网络爬虫，它们基本上可以访问网站，查看可用的内容，并组织它为搜索者提供可用信息的最佳形式。为了适当地抓取和处理来自网站的内容，搜索引擎机器人需要来自您网站的 robots.txt 页面形式的说明。

创建 robots.txt 文件并有效地使用它来优化网页以用于搜索引擎可能是一个令人困惑的过程。有一些细节需要记住，这些细节可以决定或破坏网站对搜索引擎机器人的可访问性。

从遵循适当的格式和语法到将 robots.txt 文件放置在正确的站点位置，必须遵循一些基本准则和 Robots txt 最佳实践来管理您网站的流量。

Robots.txt 文件：它们是什么以及您为什么想要一个

让我们更深入地了解 robots.txt 文件是什么以及它在 SEO 范围内的工作原理。以下是您需要了解的有关 Robots txt 最佳实践的信息。

robots.txt 文件是在机器人排除标准或 RES 中创建的纯文本文件。 RES 是网络爬虫可以阅读的语言协议。由于有来自各种搜索引擎的多个网络爬虫，因此避免对访问内容的误解很重要。 RES 允许您具体指定要阻止哪些网络爬虫，同时还非常灵活地允许您保护整个网站或如果需要仅保护其中的一部分。

大多数网络爬虫会扫描 robots.txt 文件，以确定他们应该能够从您的网站请求哪些内容。请记住，具有恶意的网络爬虫可以选择忽略说明，甚至将其用作查找网站弱点或联系信息以发送垃圾邮件的指南。如果没有找到 robots.txt 文件，则爬虫将认为该站点对任何 URL 或媒体文件上的任何请求都是开放的。

任何人都可以随时查看站点的 robots.txt 文件。这意味着它不应该被用来隐藏任何私人信息或可能被泄露的信息。寻找替代方法以从搜索结果中隐藏整个信息页面，例如 noindex 指令。

考虑一下如果您的网站没有附加 robots.txt 文件会发生什么。您可能会收到来自第三方爬虫的多个请求，这会降低您的网站或服务器的速度。重载服务器或导致服务器错误只会损害您对受众的可访问性。

尽管一些第三方爬虫仍然可以选择忽略这些块，但创建 robots.txt 文件以阻止大多数其他不需要的点击并防止它们搜索您的内容是值得的。

创建 Robots.txt 文件

要开始创建 robots.txt 文件，您可以使用简单的文本编辑器（不是文字处理器）来制作文件并将其上传到您网站的主根目录。确保它位于您网站名称的根目录中。所有网络爬虫都在您的基本 URL 之后寻找“/robots.txt”。

一组规则构成了一个 robots.txt 文件。每个规则中要包含的第一个参数是用户代理，它是您正在指示的网络爬虫的名称。

Googlebot 就是一个例子，但网络爬虫太多了，因此指定您的目标是阻止或允许来自特定区域的人非常重要。星号 (*) 代替用户代理名称意味着所有机器人都应该遵循规则，如果他们选择遵循它。

第二个参数是关键指令词之一：允许或禁止。后面应该跟您要允许或禁止爬虫访问的文件夹名称或文件路径名称。

这样做可以让您指定您希望网站的哪些部分不被搜索结果编入索引，并防止您在整个集合中获得点击。如果不是每个文件都对您的 SEO 任务有帮助，那么澄清这一点尤其有用。

robots.txt 文件的另一个常见关键部分是将链接添加到您的 XML 站点地图。附上它是为了让网络爬虫可以轻松地评估您的内容并索引您允许的任何内容，以便更有价值的信息、视频和图像可以浮出水面。

这些只是为您的站点设置可行的 robots.txt 文件的基础知识。在此基础上，您应该能够创建网络爬虫可以导航的规则，以产生重要的搜索结果，从而增加您的网站流量。这还需要努力分析您的网站，以找出哪些信息或媒体会促使观众希望看到您提供的更多内容。

Robots.txt 文件的最佳实践

robots.txt 文件的概述有望帮助您创建自己的网站文件，并且您可以遵循以下最佳做法来全面优化您的网站以供搜索引擎爬虫使用。我们涵盖了确保您被阻止的 URL 无法通过其他站点访问、使用符号在存在模式时进行简化、适当地组织您的文件以及测试您的 robots.txt 文件以查看它是否符合您的要求。

测试您的 Robots.txt 文件

测试您的 robots.txt 文件非常重要，以确保您不会阻止网站的整个部分出现在搜索结果中。通过测试工具执行此操作可以让您知道某个网络搜索机器人是否阻止了特定 URL。

如果您要限制多个方面，这将特别有用。您不希望通过简单地切换“允许”或“禁止”这两个词来将您的网页、媒体文件或资源文件完全排除在 SEO 游戏之外。

模式匹配

利用 robots.txt 文件中的模式匹配来解决 URL 的变化。如前所述，模式匹配可以包括一个星号来表示所有爬虫。这可以在用户代理行中使用，以禁止所有读取文件并选择服从它的搜索引擎机器人的特定页面。

另一个模式匹配符号是美元符号 ($)，它可用于特定字符串的末尾，以防止爬虫访问以该扩展名或文件类型结尾的任何 URL。

布局、语法和格式

此外，对于适合您的 robots.txt 页面，注意放置、语法和格式是必不可少的。同样，该文件应放在网站的根目录中，而不是放在子页面 URL 或不同的域下，因为每个站点 URL 只能有一个 robots.txt 文件。网络爬虫只会查看该根位置，因此放置在任何其他位置的相同文件将变得无关紧要。

robots.txt 文件中的指令应按正在处理的用户代理或爬虫进行分组。这些组从上到下进行扫描，这意味着网络爬虫将遵循与其匹配的第一组特定规则。在定义您的规范并确定您允许或阻止哪些网络爬虫时，请记住这一点。

外部链接

robots.txt 文件中包含的 URL 有时仍可被编入索引，尽管存在禁止特定或多个爬虫的指令。怎么会这样？当外部页面包含指向您可能希望被阻止的页面的链接时，网络爬虫在扫描和索引内容时仍然能够看到该信息。这是在调查进一步保护某些网页的选项时有用的另一个示例。

为您的网站使用 robots.txt 文件在指导您要推送哪些网站链接以进行搜索引擎推广并避免过多的搜索引擎爬虫请求时对您有利。

这是一个基础部分，您不希望从 SEO 准备工作的裂缝中溜走，尤其是在涉及 Robots txt 最佳实践时。牢记这些指南和建议将帮助您构建一个不会影响您的网站在搜索引擎结果页面中的性能的 robots.txt 页面，并将提高您的网站速度和可访问性。