Pourquoi TF-IDF ne résout pas votre problème de contenu et de référencement, mais semble le faire
Publié: 2019-08-16Dans cet article, nous examinons les défis liés à l'utilisation de TF-IDF pour créer et optimiser du contenu Web. Bien que l'utilisation de TF-IDF puisse vous faire vous sentir bien, cela ne résout pas vraiment le problème. Au fur et à mesure que nous enquêtons sur les problèmes liés à son utilisation, vous découvrirez que l'utilisation de TF-IDF peut en fait vous égarer.
Qu'est-ce que TF-IDF ?
La fréquence inverse de la fréquence des termes ( TF-IDF ) est une mesure utilisée pour déterminer la pertinence d'un terme dans un document. La formule compte la fréquence d'un terme (TF) dans un document donné et applique un facteur de fréquence de document inverse (IDF) pour diminuer le poids des termes qui se produisent très fréquemment, tout en augmentant le poids de ceux qui se produisent rarement.

TF-IDF est basé sur les efforts de Hans Peter Luhn (1957) pour ses travaux sur la fréquence des termes, et de Karen Sparck Jones (1972) pour ses travaux sur la fréquence inverse des documents. Les lecteurs avisés remarqueront que cela précède de plusieurs décennies la naissance du World Wide Web, ce qui soulève la question.
Google utilise-t-il même TF-IDF et est-il toujours pertinent ?
John Mueller de Google a laissé entendre que l'utilisation de TF-IDF par le moteur de recherche est très limitée . Lors d'un hangout, le seul contexte dans lequel il a mentionné TF-IDF était pour la suppression des mots vides.
Ce n'est pas surprenant compte tenu de l'avancement du Knowledge Graph, Hummingbird, Rankbrain et Topical Layer. Google est un algorithme en constante évolution qui s'entraîne et apprend constamment ce que signifient les choses et comment gérer les ambiguïtés du langage humain.

Nous constatons des fonctionnalités SERP variables et une meilleure gestion des résultats personnalisés. Le moteur de recherche améliore sa capacité à gérer la rupture d'intention (requêtes de recherche qui font appel à plusieurs intentions). Mais l'algorithme est loin d'être parfait. Comme nous le verrons, cela pose un sérieux défi à ceux qui utilisent TF-IDF comme moyen d'optimiser le contenu.
Dans un monde où l'IA, les réseaux de neurones et l'apprentissage automatique sont la norme, TF-IDF est comme un vélo pour enfants sur roues d'entraînement par rapport à une Ferrari.
Roger Montti, spécialiste du marketing de recherche et conférencier
Pourquoi TF-IDF se sent-il si bien pour de nombreux référenceurs ?
Malgré l'utilisation limitée par Google de cette technologie vieille d'un demi-siècle, de nombreux experts en référencement pensent que TF-IDF est la voie vers la proéminence des moteurs de recherche. Pourquoi donc?
TF-IDF est un concept relativement obscur au sein de la communauté SEO. Parce qu'il ne leur est pas familier, Les référenceurs supposent que la technologie est à la pointe de la technologie. Cela lui donne un certain cachet.
La majorité des référenceurs ignorent l'histoire de TF-IDF. Ils ne réalisent pas son véritable âge ni son véritable objectif. Indice, ce n'est pas pour l'optimisation du contenu.
Les référenceurs pensent que TF-IDF joue un rôle important dans les algorithmes de recherche de Google. Parce que Google a des brevets et quelques articles qui font référence à TF-IDF, il y a une fausse hypothèse sur le rôle que joue cette technologie.
TF-IDF semble sophistiqué pour la majorité des référenceurs. Il est rare que les référenceurs aient une formation en science des données. Dans ce contexte, il est facile de supposer que la complexité apparente de TF-IDF est égale à l'efficacité.
Qui ne voudrait pas utiliser une technologie sophistiquée et révolutionnaire d'optimisation des moteurs de recherche ? Surtout quand cela semble si prometteur !
Sauf que non.
Les problèmes avec TF-IDF
Il existe un certain nombre d'outils de référencement, gratuits ou peu coûteux, qui prétendent utiliser TF-IDF comme méthode d'optimisation du contenu pour le référencement. Tous souffrent des problèmes suivants.
TF-IDF est une approche primitive
J'ai demandé à JR Oakes, directeur principal, Recherche technique SEO chez Adapt Partners, son opinion sur TF-IDF. Il propose une analyse succincte de ses limites.
TF-IDF est une bonne mesure de l'importance d'un document, par rapport à d'autres documents, pour un terme explicite. Là où ça tombe à plat, c'est que vous pouvez avoir un document qui est très pertinent pour "bébé" selon TF-IDF, alors que vous cherchiez "nourrisson". Étant donné que le document (qui était le plus pertinent pour « bébé ») utilise peu ce terme, il n'est pas considéré comme une correspondance pertinente.
Google comprend que "bébé" et "nourrisson" sont des termes fortement liés (souvent synonymes), et une page pertinente pour l'un est plus que probablement pertinente pour l'autre, à moins qu'il n'y ait des indices de contexte dans le reste de la requête qui disent le contraire . Ceci est basé sur la cooccurrence de l'utilisation sur Internet ainsi que sur la probabilité qu'ils soient tous les deux utilisés dans des contextes similaires.
Un autre bon exemple est une faute d'orthographe. Si vous avez des documents sur les chaussures "reebok" et que vous recherchez "rebok", avec TF-IDF, vous trouverez très probablement la page sur laquelle quelqu'un a fait une faute d'orthographe. Google les considérera comme identiques et renverra les résultats appropriés.
JR Oakes, directeur principal, Recherche technique SEO chez Adapt Partners
Les applications TF-IDF s'appuient sur les résultats de recherche Google
Il s'agit de la fréquence des documents inverse de la fréquence des termes en utilisant ces documents tels qu'ils apparaissent dans le SERP. Ces applications s'appuient généralement aveuglément sur les 10 ou 20 premières pages du SERP sans être plus réfléchies et sans rechercher pourquoi ces pages contiennent ces sujets.
Utiliser si peu de documents comme corpus affecte considérablement la qualité des résultats. Ils ne tiennent pas compte des valeurs aberrantes avec un contenu de faible qualité ou des éléments de contenu courts qui ne fournissent pas de valeur pour ce modèle.
Prendre les meilleurs résultats de Google ignore les valeurs aberrantes pour les facteurs hors page ; les pages qui se classent bien malgré leur contenu. L'erreur impliquée est si élevée que même en tenant compte de ces choses, vous n'avez pas les informations nécessaires pour prendre des décisions et vous mettre potentiellement sur la mauvaise voie.
Utiliser des gains de temps comme le traitement du langage naturel. Vous devez traiter tout ce qui existe sur un sujet.
Les solutions TF-IDF et de densité de mots clés jettent tout cela par la fenêtre. Si vous suivez leurs conseils, vous avez autant de chances de réussir que si vous lanciez les dés.
J'ai contacté Bill Slawski, directeur de la recherche SEO chez Go Fish Digital. Bill analyse les brevets de recherche de Google et écrit à leur sujet sur son blog, SEO by the Sea, depuis 2005.
TF-IDF est mentionné dans un certain nombre de brevets Google comme quelque chose que le moteur de recherche peut utiliser dans le cadre de processus sous-jacents tels que la génération d'affinements de requête. Puisque Google a accès à son corpus de documents sur le Web, et aux mots utilisés sur ces documents dans son index, c'est très raisonnable.
La partie IDF de TF-IDF peut être utilisée pour identifier la rareté ou la fréquence des mots dans le Corpus de Google sur le Web. Malheureusement, Google ne partage pas ce corpus.
Lorsque vous effectuez une requête, Google indique le nombre de résultats dans lesquels un terme de requête apparaît, mais ce montant est une estimation d'un pourcentage de documents dans le corpus Web de Google (comme nous le dit l'un des brevets de Google.) Mais toute personne autre que Google utilisant TF - IDF sur un document sans le corpus de Google n'est pas capable de déterminer la fréquence ou la rareté des mots dans un document qui n'utilise pas réellement le corpus de Google.
Certains outilleurs proposent des outils TF-IDF. Ils font des choses comme regarder quels termes apparaissent sur les pages qui se classent très bien pour les termes de requête spécifiques que vous entrez. Gardez à l'esprit que ceux-ci ne sont pas nécessairement liés sémantiquement les uns aux autres. Bien que j'aie vu certaines affirmations selon lesquelles TF-IDF utilisé de cette manière peut identifier des mots sémantiquement liés les uns aux autres.
Bill Slawski, directeur de la recherche SEO chez Go Fish Digital.
TF-IDF examine les pages qui atteignent différents objectifs et les fusionne
S'appuyer sur les pages "N" supérieures du SERP crée d'autres problèmes. Vous utilisez peut-être des pages trop générales ou trop spécifiques ou ciblées sur un secteur différent. Le contenu peut être mal écrit et avoir une valeur hors page importante qui détermine son classement. Prenons par exemple les pages de destination des pages de destination qui ont été soutenues dans les SERP par des stratégies de création de liens.
La liste des mots-clés pertinents sur le plan thématique n'est pas nécessairement adaptée à votre entreprise
TF-IDF fournit une liste de mots-clés topiquement pertinents associés à ces éléments de contenu. Mais vous devez encore déterminer la pertinence de ces phrases pour votre entreprise. Si vous écrivez un article de blog qui s'inspire d'une page de destination ou d'une page de contenu de mauvaise qualité, ou qui ne correspond pas à votre intention, cela ne conviendra pas.
TF-IDF est fortement axé sur les mots clés
Les pages ne concernent pas les mots-clés. Une page qui fonctionne bien pour beaucoup de choses concerne beaucoup de choses. L'utilisation de TF-IDF à partir d'un mot-clé pour créer ou optimiser une page laisse beaucoup de côté. Plus précisément, tous les autres résultats de recherche de tous ces autres mots clés sont différents. C'est un énorme manque.
Les mots-clés de termes peuvent apparaître de manière cumulative, des radicaux et des synonymes et d'autres concepts de parenté. Ce genre de démystifications à l'aide de mots-clés. C'est le biais qui est créé en utilisant uniquement les pages ou mots-clés "N" supérieurs.
En fin de compte, vous ne pouvez jamais vraiment savoir si l'une de ces pages est réellement écrite de manière experte de manière complète. Chacune de ces pages se classe également pour "N" autres sujets, ce qui se traduit par un ensemble de pages que vous devez évaluer . Sur la base de ces pages et de leur contenu, il peut continuer à se ramifier.
Une focalisation sur les mots clés peut conduire à des choses comme un langage vraiment non naturel ; le genre de contenu de qualité médiocre où ils forcent des mots-clés dans le contenu à tout prix. Alternativement, le contenu peut être bon, mais il n'a aucun lien avec quoi que ce soit sur votre site.
Andy Crestodina, co-fondateur / directeur marketing d'Orbit Media Studios, l'exprime ainsi.
"Bel article, mais le TF-IDF aurait pu être un peu mieux…" Quand je reçois ce commentaire d'un lecteur, je vais commencer à m'inquiéter de choses comme la fréquence inverse des documents.
Oui, choisissez une phrase clé primaire à portée de main. Oui, utilisez cette phrase dans le titre, l'en-tête et le corps du texte. Oui, travaillez dans ces phrases et sous-thèmes sémantiquement liés. Oui, répondez aux questions pertinentes «les gens posent aussi». Mais non, ne calculez pas TF-IDF. Parce que c'est juste idiot.
Au lieu de cela, écrivez quelque chose d'original, quelque chose d'utile de manière inattendue. Ne vous souciez plus de ravir votre lecteur. Faites cela et vous enverrez tous les bons signaux de recherche. Vous gagnerez des liens, du temps de séjour, du bouche à oreille et des recherches de marque. Oubliez les maths et faites quelque chose de génial. Vos lecteurs espèrent que vous suivrez ce conseil.Andy Crestodina, co-fondateur / directeur marketing d'Orbit Media Studios
L'utilisation de TF-IDF pour déterminer l'importance est une métrique erronée
Calculer l'importance en fonction de la fréquence d'utilisation dans le SERP par rapport à la pertinence est une mesure absolument erronée. Si certaines entrées du SERP se concentrent sur une intention et que les autres se concentrent sur une autre, la pondération du terme (importance) peut être notée à 50 %. Cependant, si tout le monde utilise une sorte de mot commun, cela sera jugé comme plus important.
Donc, vous essayez de faire appel à cette seule intention. Mais le modèle vous découragera de poursuivre dans cette voie car seuls cinq des résultats utilisent le terme. Le modèle va dire que ce n'est que cinq sur 10.

En d'autres termes, si vous avez un contenu de haute qualité, axé sur une intention différente, vous serez induit en erreur. Si vous avez un contenu de mauvaise qualité avec des facteurs hors page élevés, cela vous mènera sur la mauvaise voie. Si vous avez des intentions mitigées, cela vous fera dévier de votre trajectoire. Donc, l'utiliser comme métrique n'est que de la foutaise.
Les applications TF-IDF se concentrent uniquement au niveau de la page
En se limitant au niveau de la page, les applications TF-IDF ne peuvent pas relier les points entre le reste du contenu de votre site. Une page sur un sujet ne suffit généralement pas. Pour bien faire, vous avez besoin d'autres contenus qui alimentent votre autorité et fonctionnent ensemble grâce à une interconnexion appropriée et à l'utilisation d'un texte d'ancrage pertinent .

Une note ne fournit pas d'informations
Évaluer une page en fonction de sa conformité avec TF-IDF semble être une bonne idée. Mais si vous ne pouvez pas plonger et en savoir plus sur ce site ou cette page, ces informations n'ont aucun sens et ne sont pas exploitables.
La page avec la note la plus élevée peut :
- Ayez un objectif différent du vôtre.
- Soyez beaucoup plus fort ou plus faible que le vôtre.
- Ayez deux objectifs.
- Peut bien couvrir ce sujet, mais aussi couvrir autre chose.
Votre objectif de simplifier ce processus de projet de recherche avec TF-IDF est donc inaccessible. Il vous a donné cette note, mais vous devez toujours revenir en arrière et la rechercher manuellement pour voir si les données TF IDF sont valides pour chaque page.
À quoi ça sert?
Pourquoi utiliser TF-IDF si vous obtenez une note et que vous devez encore travailler manuellement sur la page ? La technologie devrait vous permettre d'effectuer une analyse sophistiquée comprenant :
- Analyse explicite du chevauchement de sujets de ce sujet et de tous les autres mots pour lesquels ils se classent par rapport à votre page et à quoi elle se classe.
- Structure de site compétitive
- L'intention que la concurrence cherche à servir.
C'est là que TF-IDF tombe à plat. Il ne fournit aucune valeur de raccourci sur laquelle vous pouvez compter.
Ne pas pouvoir creuser en utilisant la technologie est une méthodologie erronée. Parce que vous devez encore faire cette couche supplémentaire de recherche pour obtenir cette analyse directe de ce que signifie approcher une intention par rapport à une autre.
Comment TF-IDF s'intègre dans un flux de travail
Les outils utilisant TF-IDF entraînent de mauvaises habitudes pour les rédacteurs et les référenceurs. Ils essaient de tisser des mots qui ne correspondent pas naturellement ou peuvent ajouter des sections qui ne s'associent pas bien avec le récit.
Ces applications ignorent la relation entre chercheur et écrivain. Remettre une liste de mots qui peuvent ne pas correspondre à la vision de l'écrivain va créer un conflit. Ils peuvent être inspirés par certains de ces mots, mais ce n'est pas la solution d'activation de flux de travail qu'elle prétend être.
Que se passe-t-il si vous fournissez une liste de mots-clés en utilisant cette méthodologie ? Certains d'entre eux sont sur un sujet et certains d'entre eux sont sur une autre intention. La personne qui reçoit ne saura pas quoi faire avec cela. Cela n'a pas l'air juste.
Les véritables stratèges de contenu savent qu'ils doivent évaluer. Ils doivent faire le travail pour comprendre ce que signifie être un expert en la matière, pour comprendre l'intention de l'utilisateur.
Dois-je essayer d'être comme la page qui obtient une bonne note ? Parce que si je fais ça, la probabilité de succès est aussi aléatoire que n'importe quelle autre méthodologie de recherche. Franchement, si je dois faire toutes ces recherches manuelles sur cette métrique dont je dispose, quelle valeur apporte-t-elle vraiment ? Je ne peux pas m'y fier.
Combinaison de TF-IDF avec d'autres points de données
L'utilisation de données TF-IDF avec d'autres points de données erronés conduit à de fausses conclusions. En voici quelques-uns que nous voyons utilisés en relation avec TF-IDF.
Volume de recherche
Peut-être que vous comptez sur le volume de recherche pour déterminer sur quoi écrire. Au lieu d'évaluer le véritable potentiel d'une page qui atteint les meilleurs classements pour ce sujet, vous le mélangez avec ce type d'analyse concurrentielle.
Disons qu'un mot-clé que vous ciblez a 8 100 recherches mensuelles. Mais le concurrent, contre qui vous modélisez, a un contenu qui se classe pour des dizaines, des centaines ou des milliers de mots avec ces pages et leur réseau Web de pages dans lesquelles ils existent.
Chacun d'eux peut recevoir 10 000 visites mensuelles alors que le vôtre n'en reçoit que 1 000. Vous utilisez donc le volume de recherche pour calculer le potentiel de manière erronée. Vous effectuez une analyse concurrentielle en notant le contenu sans plonger ni faire de recherche. Combinez ces deux choses d'une manière imparfaite, et les conseils fournis par l'utilisation de ces deux mesures sont aussi susceptibles d'assurer le succès que d'entraîner un échec.
Fonctionnalités SERP
L'utilisation des fonctionnalités SERP et de l'analyse du type de page dans le cadre de vos conseils pour déterminer le type de page dont vous avez besoin ne reflète pas la véritable intention de la requête.
Quelles sont les fonctionnalités SERP ? Ai-je la possibilité de réussir ?
Mais si tu:
- Je n'ai jamais rien écrit à ce sujet.
- Ne pas avoir d'autorité hors page.
- N'ayez pas de collection de contenu ou de fondation ou de groupe de contenu.
Ensuite, l'utilisation des fonctionnalités SERP avec un volume de recherche et un contenu compétitif ne fait qu'ajouter du chaos et du désordre à mes chances d'être performant. Ce sont des données complètement inutiles.
Concurrence AdWords et CPC AdWords
La concurrence AdWords et le CPC AdWords sont des mesures strictement réservées au marketing des moteurs de recherche (annonces payantes). Aucune des deux mesures n'est corrélée à la difficulté. Ils ne représentent pas non plus une relation avec la facilité ou la difficulté avec laquelle il vous sera de vous classer dans les résultats de recherche organiques.
La valeur de TF-IDF
Existe-t-il une fonctionnalité d'échange de TF-IDF ?
- Cela pourrait servir à vous inspirer ou à révéler un sujet auquel vous n'auriez peut-être pas pensé.
- Cela peut vous aider à déterminer si votre optimisation sur la page n'est pas conforme à ce qui est naturel.
- Cela pourrait même vous aider à trouver des concurrents pour lesquels vous devez effectuer des recherches détaillées supplémentaires.
Kevin Indig, vice-président SEO et contenu, G2 blogue régulièrement sur de nouveaux concepts d'idées de marketing numérique sur son blog. J'ai demandé s'il pouvait donner un aperçu de son expérience avec TF-IDF.
Je suis un peu ambivalent à propos de TF-IDF. Google a déclaré qu'il ne l'utilisait pas et même s'il le faisait, sans le corpus complet de Google (c'est-à-dire tout le contenu sur Internet indexé par Google), nous ne pouvons pas obtenir la valeur TF/IDF précise. Je dois dire, cependant, que chaque fois que j'ai utilisé les outils TF-IDF dans le passé, mon contenu s'est mieux classé que sans. Ainsi, peu importe à quel point le concept semble inexact ou inapplicable, il semble utile d'utiliser certains de ces outils.
Kevin Indig, vice-président SEO et contenu, G2
Cela semble être similaire à l'expérience dont Joe Hall a parlé dans son article TF-IDF n'aidera pas votre référencement.
Ces types d'outils peuvent aider à optimiser le contenu pour le référencement, mais pas à cause de TF-IDF . Tout simplement parce qu'ils fournissent des conseils et des encouragements pour réécrire le contenu avec un langage plus naturel qui est couramment utilisé. Ces mêmes outils peuvent être créés à l'aide d'autres mesures telles que la "densité des mots clés" ou simplement le "nombre total de termes", qui peuvent être comparées les unes aux autres.
Joe Hall, consultant SEO et analyste principal chez Hall Analysis

Derniers mots
Mais TF-IDF fournit-il suffisamment d'informations pour prendre en charge l'ensemble de votre flux de travail ? Pas du tout.
Bien que cela puisse sembler agréable à de nombreux référenceurs, la réalité est que cette métrique vieille de 50 ans joue un rôle très limité dans les algorithmes de recherche de Google. Pas exactement à la pointe n'est-ce pas?
Maintenant, vos pages doivent-elles être complètes et de haute qualité ? Oui.
En le modélisant à l'aide de TF-IDF ? Non.
Idéalement, vous essayez de créer un modèle de sujet pertinent et vous avez besoin de pertinence dans le cadre de ce calcul. Les moteurs de recherche peuvent utiliser TF-IDF, mais ce n'est qu'un facteur.
C'est un élément de l'ensemble de ce qui est nécessaire pour une recherche appropriée et l'optimisation de votre contenu. Ainsi, si quelqu'un vend un outil TF-IDF en tant que solution de bout en bout, il vous vend une histoire qui manque des informations nécessaires pour prendre de bonnes décisions pour votre entreprise.
Vous pourriez aussi bien faire confiance à votre éditeur pour prendre ces décisions commerciales. Ou lancez simplement les dés. De toute façon, c'est pareil.
Vous avez encore des questions sur TF-IDF ? Lisez les réponses ici, TF-IDF pour les FAQ SEO.
Ce que tu dois faire maintenant
Lorsque vous êtes prêt… voici 3 façons dont nous pouvons vous aider à publier un meilleur contenu, plus rapidement :
- Réservez du temps avec MarketMuse Planifiez une démonstration en direct avec l'un de nos stratèges pour voir comment MarketMuse peut aider votre équipe à atteindre ses objectifs de contenu.
- Si vous souhaitez apprendre à créer un meilleur contenu plus rapidement, visitez notre blog. Il regorge de ressources pour vous aider à faire évoluer le contenu.
- Si vous connaissez un autre spécialiste du marketing qui aimerait lire cette page, partagez-la avec lui par e-mail, LinkedIn, Twitter ou Facebook.

Andy Crestodina, co-fondateur / directeur marketing d'Orbit Media Studios