什么是机器人 Txt 文件? 允许所有和更多
已发表: 2020-11-19什么是机器人 Txt 文件?
robots.text 文件是告诉搜索引擎他们无法进入您网站的区域的关键方法。 所有主要搜索引擎都支持此文本文件提供的基本功能。 一些搜索引擎将响应的额外规则可能非常有用。 您可以通过多种方式在您的网站上使用 robots.txt 文件。 尽管该过程看起来相当简单,但您需要小心。 如果您犯了错误,您可能会对您的网站造成重大损害。
搜索引擎蜘蛛会读取 robots.txt 文件并遵守非常严格的语法。 许多人将这些蜘蛛称为机器人,这就是这个名字的来源。 用于语法的文件必须简单,因为它必须能够被计算机读取。 这意味着绝对没有错误的余地。 一切都是一或零,中间没有任何空间。 robots.txt 文件也称为机器人排除协议。
这个名字起源于一群早期的搜索引擎蜘蛛开发者。 目前,还没有标准组织将机器人文本文件设置为官方标准。 尽管如此,所有主要的搜索引擎都遵守这个文件。
机器人文本文件有什么作用?
网络由搜索引擎通过爬虫页面进行索引。 遵循链接来引导搜索引擎从站点 A 到 B 等等。 在搜索引擎发送的蜘蛛抓取过去未遇到的域的任何页面之前,会打开该域的 robots.txt 文件。 这就是通知搜索引擎网站上哪些 URL 不允许被索引的原因。
在大多数情况下,robot.txt 内容被搜索引擎缓存。 缓存通常每天刷新几次。 这意味着您所做的任何更改都会很快显示出来。
整理您的 Robots.txt 文件
将一个非常基本的 robots.txt 文件放在一起非常简单。 你不应该在这个过程中遇到任何困难。 您只需要一个简单的文本编辑器,例如记事本。 首先打开一个页面。 现在将您的空白页面保存为 robots.txt。 转到您的 cPanel 并登录。 找到文件夹 market public_html 以访问您网站的根目录。 打开此文件夹,然后拖入您的文件。 您需要确保为文件设置了正确的权限。
由于您是网站的所有者,因此您必须编写、阅读和编辑您的文件。 您不应允许其他任何人代表您执行这些操作。 您文件中显示的权限代码应为 0644。如果未显示,则需要更改。 您可以通过单击文件并选择文件权限来完成此操作。
Robots.txt 语法
robots.txt 文件中包含许多指令部分。 每一个都以指定的用户代理开始。 这是您的代码正在与之交谈的爬网机器人的名称。 您有两种不同的可用选项。 第一种是使用通配符同时处理所有搜索引擎。 您还可以单独处理特定的搜索引擎。 一旦部署了机器人来抓取网站,它就会立即被吸引到块中。
您的用户代理指令是每个块的前几行。 这被简单地称为用户代理并精确定位特定的机器人。 您的用户代理会匹配特定的机器人名称。 如果您需要告诉 Googlebot 您希望它做什么,请从用户代理开始:Googlebot。 搜索引擎将始终尝试找出与其关系最密切的某些指令。 以下是用户代理指令的几个示例:

(图片来源:莫兹)
一个很好的例子是当您使用两个不同的指令时。 如果您的第一个指令用于 Googlebot-video,而您的第二个指令用于 Bingbot,则流程如下。 第一个使用 Bingbot 作为用户代理的机器人将按照您的指示进行操作。 您的 Googlebot-video 指令将被传递,机器人将开始搜索更具体的指令。
在 60 秒内测试您网站的 SEO 和性能!
良好的网站设计对访问者的参与度和转化率至关重要,但网站速度缓慢或性能错误甚至可能使设计最好的网站表现不佳。 Diib 是世界上最好的网站性能和 SEO 监控工具之一。 Diib 利用大数据的力量帮助您快速轻松地增加流量和排名。 正如在企业家中看到的!
- 易于使用的自动化 SEO 工具
- 关键字和反向链接监控+想法
- 确保速度、安全性和核心生命体征跟踪
- 智能地提出改进 SEO 的想法
- 超过 250,000,000 名全球会员
- 内置基准测试和竞争对手分析
被超过 250,000 家公司和组织使用:
与
主机指令
目前只有 Yandex 支持主机指令。 有人猜测该指令也得到了 Google 的支持。 这使用户能够决定是否 www. 应显示在 URL 之前。 由于唯一确认的支持者是 Yandex,因此不建议依赖主机指令。 如果您对使用当前主机名不感兴趣,可以使用 301 重定向来重定向它们。
第二行是 robots.txt 不允许。 这是一个指令块。 这可用于指定机器人不访问您网站的哪些区域。 如果您选择一个空的不允许,它将成为一个免费的。 这意味着机器人可以在没有来自您网站的指令的情况下确定他们在哪里访问和不想访问。
站点地图指令
您的站点地图指令使用 robots.txt 站点地图来告诉搜索引擎您的 XML 站点地图所在的位置。 您最有用和最好的选择是使用特定的网站管理员工具将每一个单独提交给搜索引擎。 这将使您能够从所有人那里了解有关您网站的大量有价值的信息。 如果您没有很多时间,使用站点地图指令是一个不错的选择。 例如:

你会感兴趣
如何成功扩展您的业务
网站加载速度:优化工具
网站健康检查:工具和提示
用户体验是什么意思?
(图片来源:WooRank)
Robots.txt 验证器
验证器是一种工具,用于显示您的 robots.txt 文件是否阻止了来自 Google 的网络爬虫,以获取位于您网站上的特定网址。 一个很好的例子是使用此工具测试 Googlebot-Image 抓取工具是否有权抓取您希望阻止所有 Google 图片搜索的图片 URL。
Robots.txt 允许所有
可以使用 Allow 指令来抵消 disallow 指令。 Google 和 Bing 都支持 Allow 指令。 您可以同时使用 Disallow 和 Allow 指令,让搜索引擎知道他们可以使用 Disallow 目录访问某些页面或文件。 例如:

(图片来源:DeepCrawl)

Robots.txt 谷歌
自 9 月 1 日起,Google 停止支持机器人专有协议的未发布和不受支持的规则。 此公告是在 Google 网站管理员博客上发布的。 这意味着 Google 不再支持具有 noindex 目录的文件中的 robots.txt 文件。
爬行延迟指令
在爬虫方面,Yahoo、Yandex 和 Bing 都可以让他们感到高兴。 话虽如此,它们对 crawl-delay 指令有响应。 这意味着您可以让它们远离一段时间。
Robots.txt 生成器
robots.txt 生成器是一种工具,旨在帮助网站管理员、营销人员和 SEO 生成 robots.txt 文件,而无需太多技术知识。 您仍然需要小心,因为当您创建 robots.txt 文件时,它可能会对 Google 访问您的网站的能力产生重大影响,无论您是使用 WordPress 还是其他 CMS 之一构建它。
尽管使用此工具相当简单,但建议您首先熟悉 Google 提供的说明。 如果您的实施不正确,包括 Google 在内的搜索引擎将无法抓取您的整个域,包括您网站上的关键页面。 结果会显着影响您的 SEO 工作。
机器人.txt WordPress
在大多数情况下,您可以在 WordPress 网站的根文件夹中找到您的 robots.txt。 您将需要使用您的 cPanel 文件管理器来查看您的根文件夹或通过 FTP 客户端连接到您的网站。 这只是一个简单的文本文件,您可以使用记事本打开。 下图显示了如何访问 WordPress 上的文件管理器:

(图片来源:金斯塔)
爬行延迟:10
这使您能够确保搜索引擎在抓取您的网站之前或在重新访问您的网站以进行抓取之后等待 10 秒。 概念几乎相同,但根据具体的搜索引擎略有不同。
为什么使用 Robots.txt?
Robots.txt 不需要拥有一个成功的网站。 即使您没有,您也可以通过正常运行的网站获得良好的排名。 在您决定不使用 robots.txt 之前,请记住有几个主要好处,包括:
- 保持私人文件安全:您可以让机器人远离您的私人文件夹,以确保它们更难以定位和索引。
- 指定站点地图:您可以指定站点地图位置。 为爬虫提供位置很重要,因为您希望它们能够扫描它。
- 资源控制:您可以确保您的资源处于受控状态。 每次您的网站被机器人抓取时,都会使用您的服务器资源和带宽。 如果您有一个包含大量页面和大量内容的网站,例如电子商务网站,那么由于页面数量众多,您的资源可能会很快耗尽。 使用 robots.txt 文件可确保机器人更难访问您的个人图像和脚本。 这意味着您的宝贵资源会保留给您的真正访问者。
- 导航控制:您希望搜索引擎找到您网站上最重要的页面。 您可以转移对某些页面的访问,以控制搜索者看到的页面。 不建议完全阻止搜索引擎查看特定页面。
- 没有重复的内容:您不希望 SERP 看到任何重复的内容。 您可以使用您的机器人添加规则,以阻止爬虫将包含重复内容的任何页面编入索引。
Robots.txt 无索引与禁止
您已经知道 noindex 规则不支持 robots.txt。 您仍然可以通过使用 noindex 元标记来确保搜索引擎不会索引特定页面。 机器人仍然可以访问您的页面,但机器人会从您的标签中知道您的页面不会被索引或显示在 SERP 中。 作为一个通用的 noindex 标签,disallow 规则通常是有效的。 将此标签添加到 robots.txt 后,就会阻止漫游器抓取您的网页。 例如:

如果您的页面已经使用外部和内部链接链接到其他页面,则机器人仍然可以使用从其他网站或页面收到的信息来索引您的页面。 如果您的页面被禁止使用 noindex 标记,则机器人将永远不会看到该标记。 无论如何,这可能会导致您的页面出现在 SERP 中。
使用通配符和正则表达式
您现在应该对 robots.txt 文件及其使用方式有了相当好的了解。 您还需要了解通配符,因为您可以在 robots.txt 中实现它们。 您可以从两种不同的通配符中进行选择。 您可以使用通配符来匹配您想要的任何字符序列。 如果您有任何遵循相同模式的 URL,这种通配符是一个很好的解决方案。 一个很好的例子是使用通配符来禁止从 URL 中带有问号的任何过滤器页面进行爬网。
$ 通配符匹配 URL 的结尾。 一个很好的例子是,如果您想确定您的 robots.txt 文件将禁止机器人访问您的 PDF 文件。 您所要做的就是添加一条规则。 然后,您的 robots.txt 文件将允许所有用户代理机器人抓取您的网站。 同时,任何包含 .pdf 结尾的页面都将被禁止。
你应该避免的错误
您可以使用 robots.txt 文件以多种不同方式执行各种操作。 理解正确使用您的文件势在必行。 未能正确使用您的 robots.txt 文件很容易成为 SEO 灾难。 您需要避免的最常见错误包括:
好的内容不应该被阻止
如果您打算使用 noindex 标签或 robots.txt 文件进行公开展示,那么您的好内容都不会被阻止,这一点至关重要。 这种类型的错误非常常见,会损害您的 SEO 结果。 确保彻底检查您的页面是否有禁止规则和 noindex 标签,以保护您的 SEO 工作。
区分大小写
请记住您的 robots.txt 区分大小写。 这意味着您的机器人文件必须正确创建。 您应该始终以全部小写字母命名您的机器人文件 robots.txt,否则它将不起作用。 例如:

(图片来源:搜索引擎土地)
过度使用爬行延迟
过度使用爬行延迟指令是一个非常糟糕的主意。 这将限制机器人能够抓取的页面数量。 如果您的网站非常小,这可能会起作用。 如果您的网站相当大,那么您会因阻止稳定的流量和良好的排名而伤害自己。 请注意使用爬虫延迟的频率。
我们希望您发现这篇文章很有用。
如果您想更有趣地了解您的网站健康状况,获得个人推荐和提醒,请通过 Diib 扫描您的网站。 只需 60 秒。
使用 Robots.txt 防止内容索引
阻止机器人直接抓取您的某个页面的最佳方法是禁止该页面。 在某些情况下,这是行不通的。 这包括任何带有外部来源链接的页面。 机器人将能够使用您的链接来访问和索引您的页面。 如果该机器人是非法的,您将无法阻止它抓取您的内容并将其编入索引。
使用您的 Robots.txt 屏蔽私人内容
即使您引导机器人远离私人内容,包括感谢页面或 PDF,它们仍然可以被索引。 您最好的选择之一是将您的所有私人内容放在登录名后面并与 disallow 指令放在一起。 请记住,您的网站访问者将不得不执行一个额外的步骤。 优点是您的所有内容都将保持安全。
Diib 确保您的机器人 txt 文件正常工作!
Diib Digital 为您提供有关您的 robots.txt 文件的健康和有效性的最新信息。 不要让 Google 误导您的流量,从而导致高跳出率。 以下是我们的用户仪表板的一些功能,可以提供帮助:
- 提供自定义警报,让您随时了解您的网站健康状况以及可能影响您的 robots.txt 文件的谷歌算法的任何更改。
- 针对提高移动友好性、网站健康度和自然流量的方法提供定制化建议的目标。
- 不仅可以了解您自己的网站健康状况,还可以了解您的主要竞争对手的健康状况。
- 允许您同步您的 Facebook 个人资料,让您深入了解社交媒体活动的细节。 诸如特定的帖子表现、用户的人口统计、一天中的最佳发布时间和转化等。
- 与 Diib 增长专家的每月协作会议可以帮助您微调您的移动 SEO 工作并指导您实现增长和成功。
立即致电 800-303-3510 或单击此处获取免费的 60 网站扫描并了解有关您的 SEO 优势和劣势的更多信息。
