Robots.txt : meilleures pratiques pour le référencement

Publié: 2022-04-28

Lorsqu'il s'agit de maximiser le trafic sur le site Web en ligne, nous voulons tous le faire en vérifiant notre classement de recherche et comment il pourrait s'améliorer. Bien sûr, le nom du jeu est l'optimisation des moteurs de recherche, et les règles du jeu, eh bien, elles ne sont pas toujours faciles à vérifier.

Il y a beaucoup de choses simples, au niveau du contenu et des mots-clés, qui peuvent être faites pour donner à certains sites des avantages et un avantage concurrentiel. Mais qu'en est-il de la base de tout cela ? Cela se trouve dans le fichier robots.txt de votre site Web.

Les moteurs de recherche ont des robots d'exploration Web qui accèdent essentiellement aux sites Web, examinent le contenu disponible et l'organisent pour fournir au chercheur la meilleure forme d'information disponible. Pour explorer et traiter correctement le contenu du site, le robot du moteur de recherche a besoin d'instructions sous la forme de la page robots.txt de votre site Web.

Créer un fichier robots.txt et l'utiliser efficacement pour optimiser une page Web à des fins de moteur de recherche peut être un processus déroutant. Il y a des spécificités à garder à l'esprit qui peuvent faire ou défaire l'accessibilité d'un site Web aux robots des moteurs de recherche.

Du respect du format et de la syntaxe appropriés au placement du fichier robots.txt au bon emplacement du site, il est essentiel de suivre certaines directives de base et les meilleures pratiques Robots txt pour gérer le trafic vers votre site Web.

Fichiers Robots.txt : de quoi s'agit-il et pourquoi en voulez-vous un ?

Plongeons un peu plus dans ce qu'est un fichier robots.txt et comment il fonctionne dans le cadre du référencement. Voici ce que vous devez savoir sur les meilleures pratiques Robots txt.

Un fichier robots.txt est un fichier texte brut créé dans la norme d'exclusion des robots ou RES. Le RES est un protocole pour le langage que les robots d'indexation peuvent lire. Puisqu'il existe plusieurs robots d'exploration Web de différents moteurs de recherche, il est important d'éviter toute mauvaise interprétation de ce à quoi accéder. Le RES vous permet d'être précis sur les robots d'exploration Web à bloquer, tout en étant assez flexible pour vous permettre de sécuriser un site entier ou seulement des parties de celui-ci si nécessaire.

La plupart des robots d'exploration Web analysent le fichier robots.txt pour déterminer le contenu qu'ils doivent pouvoir demander à votre site Web. Gardez à l'esprit que les robots d'exploration Web avec une intention malveillante peuvent choisir d'ignorer les instructions ou même de les utiliser comme guide pour trouver les faiblesses du site ou les informations de contact pour le spam. S'il n'y a pas de fichier robots.txt à trouver, un crawler considérera un site ouvert à toutes les requêtes sur n'importe quelle URL ou fichier multimédia.

Le fichier robot.txt d'un site est également toujours disponible pour tout le monde. Cela signifie qu'il ne doit pas être utilisé pour cacher des informations privées ou des informations qui pourraient être compromises. Recherchez d'autres méthodes pour masquer des pages entières d'informations dans les résultats de recherche, comme une directive noindex.

Imaginez ce qui se passerait si vous n'aviez pas de fichier robots.txt joint à votre site. Vous pouvez recevoir plusieurs requêtes de robots d'exploration tiers qui ralentissent votre site ou votre serveur. Surcharger un serveur ou provoquer des erreurs de serveur ne fera que nuire à votre accessibilité à votre public.

Bien que certains robots d'exploration tiers aient toujours la possibilité d'ignorer les blocages, cela vaudrait la peine de créer le fichier robots.txt pour bloquer la plupart des autres accès indésirables et les empêcher de parcourir votre contenu.

Création d'un fichier Robots.txt

Pour commencer à créer un fichier robots.txt, vous pouvez utiliser un simple éditeur de texte (pas un traitement de texte) pour créer le fichier et le télécharger dans votre répertoire racine principal de votre site Web. Assurez-vous qu'il se trouve à la racine du nom de votre site Web. Tous les robots d'indexation recherchent "/robots.txt" juste après votre URL de base.

Un ensemble de règles constitue un fichier robot.txt. Le premier des paramètres à inclure dans chaque règle est un agent utilisateur, c'est-à-dire le nom du robot d'indexation que vous indiquez.

Un exemple de ceci est Googlebot, mais il y a tellement de robots d'exploration Web qu'il est important de spécifier qui vous souhaitez bloquer ou autoriser des zones spécifiques. Un astérisque (*) à la place d'un nom d'agent utilisateur signifie que TOUS les bots doivent suivre la règle, s'ils choisissent de la suivre.

Le deuxième paramètre est l'un des mots-clés de l'instruction : autoriser ou interdire. Cela doit être suivi du nom du dossier ou du nom du chemin d'accès au fichier auquel vous souhaitez autoriser ou interdire l'accès au robot d'exploration.

Cela vous permet de spécifier les parties de votre site Web que vous souhaitez empêcher d'être indexées pour les résultats de recherche et vous empêche d'obtenir des résultats sur l'ensemble de votre ensemble. Clarifier cela est particulièrement utile si tous les fichiers ne vous aident pas dans votre quête de référencement.

Un autre élément clé commun au fichier robots.txt consiste à ajouter le lien vers votre sitemap XML. Attacher cela permet aux robots d'exploration Web d'évaluer facilement votre contenu et d'indexer tout contenu que vous autorisez afin que les informations, vidéos et images les plus précieuses puissent apparaître.

Ce ne sont là que les bases de la configuration d'un fichier robots.txt fonctionnel pour votre site. Sur cette base, vous devriez être en mesure de créer des règles que les robots d'exploration Web peuvent parcourir pour produire des résultats de recherche significatifs qui augmentent le trafic de votre site Web. Cela nécessitera également un effort pour analyser votre site Web afin de déterminer quelles informations ou quels médias inciteront un public à vouloir voir davantage le contenu que vous proposez.

Meilleures pratiques pour les fichiers Robots.txt

Cet aperçu des fichiers robots.txt vous aidera, espérons-le, à créer le fichier de votre propre site Web, et vous pourrez suivre les meilleures pratiques ci-dessous pour optimiser pleinement votre site Web pour les robots des moteurs de recherche. Nous couvrons la vérification que vos URL bloquées ne sont pas accessibles via un autre site, l'utilisation de symboles pour simplifier lorsqu'un modèle existe, l'organisation appropriée de votre fichier et le test de votre fichier robots.txt pour voir qu'il fait ce que vous voulez qu'il fasse.

Test de votre fichier Robots.txt

Il est important de tester votre fichier robots.txt pour vous assurer que vous n'empêchez pas des parties entières de votre site Web d'apparaître dans les résultats de recherche. Faire cela via un outil de test peut vous permettre de savoir si une URL spécifique est bloquée pour un certain robot de recherche Web.

Cela peut être particulièrement utile si vous essayez de limiter plusieurs aspects. Vous ne voudriez pas qu'un simple changement des mots "autoriser" ou "interdire" retire complètement votre page Web, votre fichier multimédia ou votre fichier de ressources du jeu SEO.

Correspondance de modèle

Tirez parti de la correspondance de modèles dans les fichiers robots.txt pour tenir compte des variations dans les URL. La correspondance de modèles peut inclure un astérisque, comme mentionné précédemment, pour représenter tous les robots. Cela peut être utilisé dans la ligne de l'agent utilisateur pour interdire une page spécifique à tous les robots des moteurs de recherche qui lisent le fichier et choisissent de l'obéir.

Un autre symbole de correspondance de modèle est le signe dollar ($), qui peut être utilisé à la fin d'une chaîne spécifique pour empêcher un robot d'exploration d'accéder à toute URL se terminant par cette extension ou ce type de fichier.

Emplacement, syntaxe et format

De plus, faire attention au placement, à la syntaxe et au format est essentiel pour une page robots.txt qui fonctionnera pour vous. Encore une fois, le fichier doit être placé à la racine du site Web plutôt que sous une URL de sous-page ou un domaine différent, car chaque URL de site ne peut avoir qu'un seul fichier robots.txt. Le robot d'exploration Web ne regardera que dans cet emplacement racine, de sorte que le même fichier placé à n'importe quel autre emplacement est rendu non pertinent.

Les directives contenues dans le fichier robots.txt doivent être regroupées en fonction de l'agent utilisateur ou du robot d'exploration auquel il s'adresse. Ces groupes sont analysés de haut en bas, ce qui signifie qu'un robot d'indexation suivra le premier ensemble de règles spécifiques qui lui correspondent. Gardez cela à l'esprit lorsque vous définissez vos spécifications et identifiez les robots d'exploration Web que vous autorisez ou bloquez.

Liaison externe

Une URL qui est incluse dans un fichier robots.txt peut parfois encore être indexée malgré l'existence d'une directive pour l'interdire à un ou plusieurs robots d'indexation. Comment se peut-il? Lorsqu'une page externe inclut un lien vers une page que vous souhaitez peut-être bloquer, un robot d'exploration Web pourra toujours voir ces informations lors de la numérisation et de l'indexation du contenu. Ceci est un autre exemple de cas où il serait utile d'étudier d'autres options pour protéger certaines pages Web.

L'utilisation d'un fichier robots.txt pour votre site Web est à votre avantage lorsqu'il s'agit de diriger les liens de sites que vous souhaitez pousser pour la promotion des moteurs de recherche et de tenir à distance les demandes excessives des robots des moteurs de recherche.

C'est un élément fondamental que vous ne voulez pas laisser passer entre les mailles du filet de vos préparations SEO, en particulier en ce qui concerne les meilleures pratiques Robots txt. Garder à l'esprit ces directives et recommandations vous aidera à créer une page robots.txt qui n'entravera pas les performances de votre site Web dans les pages de résultats des moteurs de recherche et améliorera la vitesse et l'accessibilité de votre site.