Robots.txt: Best Practices für SEO

Veröffentlicht: 2022-04-28

Wenn es darum geht, den Online-Website-Traffic zu maximieren, möchten wir dies alle tun, indem wir unser Suchranking überprüfen und prüfen, wie es sich verbessern könnte. Natürlich ist der Name des Spiels Suchmaschinenoptimierung und die Spielregeln, nun ja, sie sind nicht immer leicht abzuhaken.

Es gibt viele einfache Dinge, inhaltlich und in Bezug auf Keywords, die getan werden können, um bestimmten Websites Vorteile und einen Wettbewerbsvorteil zu verschaffen. Aber was ist mit der Grundlage von allem? Diese finden Sie in der robots.txt-Datei Ihrer Website.

Suchmaschinen haben Web-Crawler, die im Wesentlichen Websites aufsuchen, sich ansehen, welche Inhalte verfügbar sind, und diese so organisieren, dass sie einem Suchenden die beste verfügbare Form von Informationen liefern. Um Inhalte von der Website angemessen zu crawlen und zu verarbeiten, benötigt der Suchmaschinen-Roboter Anweisungen in Form der robots.txt-Seite Ihrer Website.

Das Erstellen einer robots.txt-Datei und deren effektive Verwendung zur Optimierung einer Webseite für Suchmaschinenzwecke kann ein verwirrender Prozess sein. Es gibt Besonderheiten zu beachten, die die Zugänglichkeit einer Website für Suchmaschinen-Roboter beeinflussen oder beeinträchtigen können.

Von der Einhaltung des geeigneten Formats und der richtigen Syntax bis hin zur Platzierung der robots.txt-Datei am richtigen Standort auf der Website ist es wichtig, einige grundlegende Richtlinien und Best Practices für Robots txt zu befolgen, um den Datenverkehr auf Ihrer Website zu verwalten.

Robots.txt-Dateien: Was sie sind und warum Sie eine wollen

Lassen Sie uns ein wenig tiefer eintauchen, was eine robots.txt-Datei ist und wie sie im Bereich SEO funktioniert. Hier ist, was Sie über Best Practices für Robots txt wissen müssen.

Eine robots.txt-Datei ist eine einfache Textdatei, die im Robots Exclusion Standard oder RES erstellt wurde. Das RES ist ein Protokoll für die Sprache, die die Webcrawler lesen können. Da es mehrere Webcrawler von verschiedenen Suchmaschinen gibt, ist es wichtig, eine Fehlinterpretation des Zugriffs zu vermeiden. Mit dem RES können Sie genau festlegen, welche Webcrawler wovon blockiert werden sollen, und gleichzeitig ziemlich flexibel darin sein, bei Bedarf eine ganze Website oder nur Teile davon zu sichern.

Die meisten Web-Crawler scannen die robots.txt-Datei, um festzustellen, welche Inhalte sie von Ihrer Website anfordern können sollten. Denken Sie daran, dass Web-Crawler mit böswilliger Absicht die Anweisungen ignorieren oder sie sogar als Leitfaden zum Auffinden von Website-Schwächen oder Kontaktinformationen für Spamming verwenden können. Wenn keine robots.txt-Datei gefunden werden kann, betrachtet ein Crawler eine Website als offen für alle Anfragen zu beliebigen URLs oder Mediendateien.

Die robot.txt-Datei einer Website ist auch immer für jeden einsehbar. Dies bedeutet, dass es nicht verwendet werden sollte, um private Informationen oder Informationen zu verbergen, die kompromittiert werden könnten. Suchen Sie nach alternativen Methoden, um ganze Seiten mit Informationen aus den Suchergebnissen auszublenden, wie z. B. eine noindex-Direktive.

Überlegen Sie, was passieren würde, wenn Sie keine robots.txt-Datei an Ihre Website angehängt hätten. Sie könnten mehrere Anfragen von Drittanbieter-Crawlern erhalten, die Ihre Website oder Ihren Server verlangsamen. Das Überladen eines Servers oder das Verursachen von Serverfehlern beeinträchtigt nur Ihre Erreichbarkeit für Ihr Publikum.

Obwohl einige Crawler von Drittanbietern immer noch die Möglichkeit haben, die Blöcke zu ignorieren, würde es sich lohnen, die robots.txt-Datei zu erstellen, um die meisten anderen unerwünschten Treffer zu blockieren und zu verhindern, dass sie Ihre Inhalte durchsuchen.

Erstellen einer Robots.txt-Datei

Um mit dem Erstellen einer robots.txt-Datei zu beginnen, können Sie einen einfachen Texteditor (kein Textverarbeitungsprogramm) verwenden, um die Datei zu erstellen und sie in Ihr Hauptstammverzeichnis für Ihre Website hochzuladen. Stellen Sie sicher, dass es sich im Stammverzeichnis Ihres Website-Namens befindet. Alle Webcrawler suchen direkt nach Ihrer Basis-URL nach „/robots.txt“.

Eine robot.txt-Datei besteht aus einer Reihe von Regeln. Der erste Parameter, der in jede Regel aufgenommen werden muss, ist ein Benutzeragent, also der Name des Webcrawlers, den Sie anweisen.

Ein Beispiel hierfür ist der Googlebot, aber es gibt so viele Webcrawler, dass es wichtig ist, anzugeben, wen Sie in bestimmten Bereichen blockieren oder zulassen möchten. Ein Sternchen (*) anstelle eines Benutzeragentennamens bedeutet, dass ALLE Bots die Regel befolgen sollten, falls sie sich dafür entscheiden sollten.

Der zweite Parameter ist eines der wichtigsten Anweisungswörter: zulassen oder verbieten. Darauf sollte der Name des Ordners oder des Dateipfads folgen, den Sie dem Crawler-Zugriff erlauben oder verweigern möchten.

Auf diese Weise können Sie angeben, welche Teile Ihrer Website nicht für Suchergebnisse indiziert werden sollen, und verhindern, dass Sie Treffer für Ihren gesamten Satz erhalten. Dies zu klären ist besonders hilfreich, wenn Ihnen nicht jede Datei bei Ihrer SEO-Suche helfen würde.

Ein weiterer wichtiger Bestandteil der robots.txt-Datei ist das Hinzufügen des Links zu Ihrer XML-Sitemap. Das Anhängen dient dazu, dass die Web-Crawler Ihre Inhalte einfach auswerten und alle von Ihnen zugelassenen Inhalte indizieren können, damit die wertvolleren Informationen, Videos und Bilder auftauchen können.

Dies sind nur die Grundlagen zum Einrichten einer funktionsfähigen robots.txt-Datei für Ihre Website. Darauf aufbauend sollten Sie in der Lage sein, Regeln zu erstellen, durch die Webcrawler navigieren können, um aussagekräftige Suchergebnisse zu erzielen, die Ihren Website-Traffic erhöhen. Dies erfordert auch die Analyse Ihrer Website, um herauszufinden, welche Informationen oder Medien ein Publikum dazu bringen, mehr von den von Ihnen angebotenen Inhalten zu sehen.

Best Practices für Robots.txt-Dateien

Diese Übersicht über robots.txt-Dateien wird Ihnen hoffentlich dabei helfen, die Datei Ihrer eigenen Website zu erstellen, und Sie können die folgenden Best Practices befolgen, um Ihre Website vollständig für Suchmaschinen-Crawler zu optimieren. Wir behandeln, wie Sie sicherstellen, dass Ihre blockierten URLs nicht über eine andere Website zugänglich sind, Symbole verwenden, um zu vereinfachen, wenn ein Muster vorhanden ist, Ihre Datei entsprechend zu organisieren und Ihre robots.txt-Datei zu testen, um zu sehen, ob sie das tut, was Sie wollen.

Testen Ihrer Robots.txt-Datei

Es ist wichtig, Ihre robots.txt-Datei zu testen, um sicherzustellen, dass Sie nicht verhindern, dass ganze Teile Ihrer Website in den Suchergebnissen erscheinen. Wenn Sie dies über ein Testtool tun, können Sie feststellen, ob eine bestimmte URL für einen bestimmten Websuchroboter blockiert ist.

Dies kann besonders hilfreich sein, wenn Sie mehrere Aspekte haben, die Sie einschränken möchten. Sie möchten nicht, dass ein einfacher Wechsel der Wörter „erlauben“ oder „nicht zulassen“ Ihre Webseite, Mediendatei oder Ressourcendatei vollständig aus dem SEO-Spiel herausnimmt.

Musterabgleich

Nutzen Sie den Musterabgleich in robots.txt-Dateien, um URL-Variationen zu berücksichtigen. Der Musterabgleich kann, wie bereits erwähnt, ein Sternchen enthalten, um alle Crawler darzustellen. Dies kann in der User-Agent-Zeile verwendet werden, um eine bestimmte Seite von allen Suchmaschinen-Robotern zu verbieten, die die Datei lesen und sich dafür entscheiden, ihr zu gehorchen.

Ein weiteres Musterabgleichssymbol ist das Dollarzeichen ($), das am Ende einer bestimmten Zeichenfolge verwendet werden kann, um zu verhindern, dass ein Crawler auf URLs zugreift, die mit dieser Erweiterung oder diesem Dateityp enden.

Platzierung, Syntax und Format

Außerdem ist es wichtig, auf Platzierung, Syntax und Format zu achten, damit eine robots.txt-Seite für Sie funktioniert. Auch hier sollte die Datei im Stammverzeichnis der Website platziert werden und nicht unter einer Unterseiten-URL oder einer anderen Domain, da jede Website-URL nur eine robots.txt-Datei haben kann. Der Webcrawler sucht nur in dieser Stammplatzierung, sodass dieselbe Datei, die an einem anderen Ort platziert wird, irrelevant wird.

Die Anweisungen in der robots.txt-Datei sollten danach gruppiert werden, welcher User Agent oder Crawler adressiert wird. Diese Gruppen werden von oben nach unten gescannt, was bedeutet, dass ein Webcrawler dem ersten spezifischen Satz von Regeln folgt, der ihm entspricht. Denken Sie daran, wenn Sie Ihre Spezifikationen definieren und feststellen, welche Webcrawler Sie zulassen oder blockieren.

Externe Verlinkung

Eine URL, die in einer robots.txt-Datei enthalten ist, kann manchmal dennoch indexiert werden, obwohl es eine Anweisung gibt, sie von einem bestimmten oder mehreren Crawlern zu verbieten. Wie kann das sein? Wenn eine externe Seite einen Link zu einer Seite enthält, die Sie möglicherweise blockieren möchten, kann ein Web-Crawler diese Informationen beim Scannen und Indexieren von Inhalten dennoch sehen. Dies ist ein weiteres Beispiel für die Untersuchung weiterer Optionen zum Schutz bestimmter Webseiten.

Die Verwendung einer robots.txt-Datei für Ihre Website ist zu Ihrem Vorteil, wenn es darum geht, festzulegen, welche Website-Links Sie für die Suchmaschinenwerbung vorantreiben möchten, und übermäßige Crawler-Anfragen von Suchmaschinen in Schach zu halten.

Es ist ein grundlegender Teil, den Sie bei Ihren SEO-Vorbereitungen nicht durchgehen lassen sollten, insbesondere wenn es um die Best Practices für Robots txt geht. Wenn Sie diese Richtlinien und Empfehlungen berücksichtigen, können Sie eine robots.txt-Seite erstellen, die die Leistung Ihrer Website auf den Ergebnisseiten von Suchmaschinen nicht beeinträchtigt und die Geschwindigkeit und Zugänglichkeit Ihrer Website verbessert.