什麼是機器人 Txt 文件? 允許所有和更多
已發表: 2020-11-19什麼是機器人 Txt 文件?
robots.text 文件是告訴搜索引擎他們無法進入您網站的區域的關鍵方法。 所有主要搜索引擎都支持此文本文件提供的基本功能。 一些搜索引擎將響應的額外規則可能非常有用。 您可以通過多種方式在您的網站上使用 robots.txt 文件。 儘管該過程看起來相當簡單,但您需要小心。 如果您犯了錯誤,您可能會對您的網站造成重大損害。
搜索引擎蜘蛛會讀取 robots.txt 文件並遵守非常嚴格的語法。 許多人將這些蜘蛛稱為機器人,這就是這個名字的來源。 用於語法的文件必須簡單,因為它必須能夠被計算機讀取。 這意味著絕對沒有錯誤的餘地。 一切都是一或零,中間沒有任何空間。 robots.txt 文件也稱為機器人排除協議。
這個名字起源於一群早期的搜索引擎蜘蛛開發者。 目前,還沒有標準組織將機器人文本文件設置為官方標準。 儘管如此,所有主要的搜索引擎都遵守這個文件。
機器人文本文件有什麼作用?
網絡由搜索引擎通過爬蟲頁面進行索引。 遵循鏈接來引導搜索引擎從站點 A 到 B 等等。 在搜索引擎發送的蜘蛛抓取過去未遇到的域的任何頁面之前,會打開該域的 robots.txt 文件。 這就是通知搜索引擎網站上哪些 URL 不允許被索引的原因。
在大多數情況下,robot.txt 內容被搜索引擎緩存。 緩存通常每天刷新幾次。 這意味著您所做的任何更改都會很快顯示出來。
整理您的 Robots.txt 文件
將一個非常基本的 robots.txt 文件放在一起非常簡單。 你不應該在這個過程中遇到任何困難。 您只需要一個簡單的文本編輯器,例如記事本。 首先打開一個頁面。 現在將您的空白頁面保存為 robots.txt。 轉到您的 cPanel 並登錄。 找到文件夾 market public_html 以訪問您網站的根目錄。 打開此文件夾,然後拖入您的文件。 您需要確保為文件設置了正確的權限。
由於您是網站的所有者,因此您必須編寫、閱讀和編輯您的文件。 您不應允許其他任何人代表您執行這些操作。 您文件中顯示的權限代碼應為 0644。如果未顯示,則需要更改。 您可以通過單擊文件並選擇文件權限來完成此操作。
Robots.txt 語法
robots.txt 文件中包含許多指令部分。 每一個都以指定的用戶代理開始。 這是您的代碼正在與之交談的爬網機器人的名稱。 您有兩種不同的可用選項。 第一種是使用通配符同時處理所有搜索引擎。 您還可以單獨處理特定的搜索引擎。 一旦部署了機器人來抓取網站,它就會立即被吸引到塊中。
您的用戶代理指令是每個塊的前幾行。 這被簡單地稱為用戶代理並精確定位特定的機器人。 您的用戶代理會匹配特定的機器人名稱。 如果您需要告訴 Googlebot 您希望它做什麼,請從用戶代理開始:Googlebot。 搜索引擎將始終嘗試找出與其關係最密切的某些指令。 以下是用戶代理指令的幾個示例:

(圖片來源:莫茲)
一個很好的例子是當您使用兩個不同的指令時。 如果您的第一個指令用於 Googlebot-video,而您的第二個指令用於 Bingbot,則流程如下。 第一個使用 Bingbot 作為用戶代理的機器人將按照您的指示進行操作。 您的 Googlebot-video 指令將被傳遞,機器人將開始搜索更具體的指令。
在 60 秒內測試您網站的 SEO 和性能!
良好的網站設計對訪問者的參與度和轉化率至關重要,但網站速度緩慢或性能錯誤甚至可能使設計最好的網站表現不佳。 Diib 是世界上最好的網站性能和 SEO 監控工具之一。 Diib 利用大數據的力量幫助您快速輕鬆地增加流量和排名。 正如在企業家中看到的!
- 易於使用的自動化 SEO 工具
- 關鍵字和反向鏈接監控+想法
- 確保速度、安全性和核心生命體徵跟踪
- 智能地提出改進 SEO 的想法
- 超過 250,000,000 名全球會員
- 內置基準測試和競爭對手分析
被超過 250,000 家公司和組織使用:
與
主機指令
目前只有 Yandex 支持主機指令。 有人猜測該指令也得到了 Google 的支持。 這使用戶能夠決定是否 www. 應顯示在 URL 之前。 由於唯一確認的支持者是 Yandex,因此不建議依賴主機指令。 如果您對使用當前主機名不感興趣,可以使用 301 重定向來重定向它們。
第二行是 robots.txt 不允許。 這是一個指令塊。 這可用於指定機器人不訪問您網站的哪些區域。 如果您選擇一個空的不允許,它將成為一個免費的。 這意味著機器人可以在沒有來自您網站的指令的情況下確定他們在哪裡訪問和不想訪問。
站點地圖指令
您的站點地圖指令使用 robots.txt 站點地圖來告訴搜索引擎您的 XML 站點地圖所在的位置。 您最有用和最好的選擇是使用特定的網站管理員工具將每一個單獨提交給搜索引擎。 這將使您能夠從所有人那裡了解有關您網站的大量有價值的信息。 如果您沒有很多時間,使用站點地圖指令是一個不錯的選擇。 例如:

你會感興趣
如何成功擴展您的業務
網站加載速度:優化工具
網站健康檢查:工具和提示
用戶體驗是什麼意思?
(圖片來源:WooRank)
Robots.txt 驗證器
驗證器是一種工具,用於顯示您的 robots.txt 文件是否阻止了來自 Google 的網絡爬蟲,以獲取位於您網站上的特定網址。 一個很好的例子是使用此工具測試 Googlebot-Image 抓取工具是否有權抓取您希望阻止所有 Google 圖片搜索的圖片 URL。
Robots.txt 允許所有
可以使用 Allow 指令來抵消 disallow 指令。 Google 和 Bing 都支持 Allow 指令。 您可以同時使用 Disallow 和 Allow 指令,讓搜索引擎知道他們可以使用 Disallow 目錄訪問某些頁面或文件。 例如:

(圖片來源:DeepCrawl)

Robots.txt 谷歌
自 9 月 1 日起,Google 停止支持機器人專有協議的未發布和不受支持的規則。 此公告是在 Google 網站管理員博客上發布的。 這意味著 Google 不再支持具有 noindex 目錄的文件中的 robots.txt 文件。
爬行延遲指令
在爬蟲方面,Yahoo、Yandex 和 Bing 都可以讓他們感到高興。 話雖如此,它們對 crawl-delay 指令有響應。 這意味著您可以讓它們遠離一段時間。
Robots.txt 生成器
robots.txt 生成器是一種工具,旨在幫助網站管理員、營銷人員和 SEO 生成 robots.txt 文件,而無需太多技術知識。 您仍然需要小心,因為當您創建 robots.txt 文件時,它可能會對 Google 訪問您的網站的能力產生重大影響,無論您是使用 WordPress 還是其他 CMS 之一構建它。
儘管使用此工具相當簡單,但建議您首先熟悉 Google 提供的說明。 如果您的實施不正確,包括 Google 在內的搜索引擎將無法抓取您的整個域,包括您網站上的關鍵頁面。 結果會顯著影響您的 SEO 工作。
機器人.txt WordPress
在大多數情況下,您可以在 WordPress 網站的根文件夾中找到您的 robots.txt。 您將需要使用您的 cPanel 文件管理器來查看您的根文件夾或通過 FTP 客戶端連接到您的網站。 這只是一個簡單的文本文件,您可以使用記事本打開。 下圖顯示瞭如何訪問 WordPress 上的文件管理器:

(圖片來源:金斯塔)
爬行延遲:10
這使您能夠確保搜索引擎在抓取您的網站之前或在重新訪問您的網站以進行抓取之後等待 10 秒。 概念幾乎相同,但根據具體的搜索引擎略有不同。
為什麼使用 Robots.txt?
Robots.txt 不需要擁有一個成功的網站。 即使您沒有,您也可以通過正常運行的網站獲得良好的排名。 在您決定不使用 robots.txt 之前,請記住有幾個主要好處,包括:
- 保持私人文件安全:您可以讓機器人遠離您的私人文件夾,以確保它們更難以定位和索引。
- 指定站點地圖:您可以指定站點地圖位置。 為爬蟲提供位置很重要,因為您希望它們能夠掃描它。
- 資源控制:您可以確保您的資源處於受控狀態。 每次您的網站被機器人抓取時,都會使用您的服務器資源和帶寬。 如果您有一個包含大量頁面和大量內容的網站,例如電子商務網站,那麼由於頁面數量眾多,您的資源可能會很快耗盡。 使用 robots.txt 文件可確保機器人更難訪問您的個人圖像和腳本。 這意味著您的寶貴資源會保留給您的真正訪問者。
- 導航控制:您希望搜索引擎找到您網站上最重要的頁面。 您可以轉移對某些頁面的訪問,以控制搜索者看到的頁面。 不建議完全阻止搜索引擎查看特定頁面。
- 沒有重複的內容:您不希望 SERP 看到任何重複的內容。 您可以使用您的機器人添加規則,以阻止爬蟲將包含重複內容的任何頁面編入索引。
Robots.txt 無索引與禁止
您已經知道 noindex 規則不支持 robots.txt。 您仍然可以通過使用 noindex 元標記來確保搜索引擎不會索引特定頁面。 機器人仍然可以訪問您的頁面,但機器人會從您的標籤中知道您的頁面不會被索引或顯示在 SERP 中。 作為一個通用的 noindex 標籤,disallow 規則通常是有效的。 將此標籤添加到 robots.txt 後,就會阻止漫遊器抓取您的網頁。 例如:

如果您的頁面已經使用外部和內部鏈接鏈接到其他頁面,則機器人仍然可以使用從其他網站或頁面收到的信息來索引您的頁面。 如果您的頁面被禁止使用 noindex 標記,則機器人將永遠不會看到該標記。 無論如何,這可能會導致您的頁面出現在 SERP 中。
使用通配符和正則表達式
您現在應該對 robots.txt 文件及其使用方式有了相當好的了解。 您還需要了解通配符,因為您可以在 robots.txt 中實現它們。 您可以從兩種不同的通配符中進行選擇。 您可以使用通配符來匹配您想要的任何字符序列。 如果您有任何遵循相同模式的 URL,這種通配符是一個很好的解決方案。 一個很好的例子是使用通配符來禁止從 URL 中帶有問號的任何過濾器頁面進行爬網。
$ 通配符匹配 URL 的結尾。 一個很好的例子是,如果您想確定您的 robots.txt 文件將禁止機器人訪問您的 PDF 文件。 您所要做的就是添加一條規則。 然後,您的 robots.txt 文件將允許所有用戶代理機器人抓取您的網站。 同時,任何包含 .pdf 結尾的頁面都將被禁止。
你應該避免的錯誤
您可以使用 robots.txt 文件以多種不同方式執行各種操作。 理解正確使用您的文件勢在必行。 未能正確使用您的 robots.txt 文件很容易成為 SEO 災難。 您需要避免的最常見錯誤包括:
好的內容不應該被阻止
如果您打算使用 noindex 標籤或 robots.txt 文件進行公開展示,那麼您的好內容都不會被阻止,這一點至關重要。 這種類型的錯誤非常常見,會損害您的 SEO 結果。 確保徹底檢查您的頁面是否有禁止規則和 noindex 標籤,以保護您的 SEO 工作。
區分大小寫
請記住您的 robots.txt 區分大小寫。 這意味著您的機器人文件必須正確創建。 您應該始終以全部小寫字母命名您的機器人文件 robots.txt,否則它將不起作用。 例如:

(圖片來源:搜索引擎土地)
過度使用爬行延遲
過度使用爬行延遲指令是一個非常糟糕的主意。 這將限制機器人能夠抓取的頁面數量。 如果您的網站非常小,這可能會起作用。 如果您的網站相當大,那麼您會因阻止穩定的流量和良好的排名而傷害自己。 請注意使用爬蟲延遲的頻率。
我們希望您發現這篇文章很有用。
如果您想更有趣地了解您的網站健康狀況,獲得個人推薦和提醒,請通過 Diib 掃描您的網站。 只需 60 秒。
使用 Robots.txt 防止內容索引
阻止機器人直接抓取您的某個頁面的最佳方法是禁止該頁面。 在某些情況下,這是行不通的。 這包括任何帶有外部來源鏈接的頁面。 機器人將能夠使用您的鏈接來訪問和索引您的頁面。 如果該機器人是非法的,您將無法阻止它抓取您的內容並將其編入索引。
使用您的 Robots.txt 屏蔽私人內容
即使您引導機器人遠離私人內容,包括感謝頁面或 PDF,它們仍然可以被索引。 您最好的選擇之一是將您的所有私人內容放在登錄名後面並與 disallow 指令放在一起。 請記住,您的網站訪問者將不得不執行一個額外的步驟。 優點是您的所有內容都將保持安全。
Diib 確保您的機器人 txt 文件正常工作!
Diib Digital 為您提供有關您的 robots.txt 文件的健康和有效性的最新信息。 不要讓 Google 誤導您的流量,從而導致高跳出率。 以下是我們的用戶儀表板的一些功能,可以提供幫助:
- 提供自定義警報,讓您隨時了解您的網站健康狀況以及可能影響您的 robots.txt 文件的谷歌算法的任何更改。
- 針對提高移動友好性、網站健康度和自然流量的方法提供定制化建議的目標。
- 不僅可以了解您自己的網站健康狀況,還可以了解您的主要競爭對手的健康狀況。
- 允許您同步您的 Facebook 個人資料,讓您深入了解社交媒體活動的細節。 諸如特定的帖子表現、用戶的人口統計、一天中的最佳發佈時間和轉化等。
- 與 Diib 增長專家的每月協作會議可以幫助您微調您的移動 SEO 工作並指導您實現增長和成功。
立即致電 800-303-3510 或單擊此處獲取免費的 60 網站掃描並了解有關您的 SEO 優勢和劣勢的更多信息。
