Por que o TF-IDF não resolve seu problema de conteúdo e SEO, mas parece que sim
Publicados: 2019-08-16Neste post, analisamos os desafios de usar o TF-IDF para criar e otimizar o conteúdo da web. Embora o uso do TF-IDF possa fazer você se sentir bem, não está realmente resolvendo o problema. À medida que investigamos os problemas em torno de seu uso, você descobrirá que empregar o TF-IDF pode, de fato, levá-lo ao erro.
O que é TF-IDF?
Frequência de documento inversa de frequência de termo ( TF-IDF ) é uma métrica usada para determinar a relevância de um termo em um documento. A fórmula conta a frequência de um termo (TF) em um determinado documento e aplica um fator de frequência inversa do documento (IDF) para diminuir o peso dos termos que ocorrem com muita frequência, enquanto aumenta o peso daqueles que ocorrem raramente.

O TF-IDF é baseado nos esforços de Hans Peter Luhn (1957) por seu trabalho sobre frequência de termo, e Karen Sparck Jones (1972) por seu trabalho sobre frequência de documento inversa. Leitores astutos perceberão que isso é anterior ao nascimento da world wide web em décadas, o que levanta a questão.
O Google ainda usa TF-IDF e ainda é relevante?
John Mueller, do Google, deu a entender que o uso do TF-IDF pelo mecanismo de pesquisa é muito limitado . Durante um hangout, o único contexto em que ele mencionou o TF-IDF foi para a remoção de palavras de parada.
Isso não é surpreendente, dado o avanço do Knowledge Graph, Hummingbird, Rankbrain e Topical Layer. O Google é um algoritmo em constante evolução que está constantemente treinando e aprendendo sobre o que as coisas significam e como lidar com as ambiguidades da linguagem humana.

Estamos vendo recursos de SERP variáveis e melhor manipulação de resultados que têm personalização. O mecanismo de pesquisa está melhorando sua capacidade de lidar com a fratura de intenção (consultas de pesquisa que apelam para várias intenções). Mas o algoritmo está longe de ser perfeito. Como veremos, isso representa um sério desafio para aqueles que usam o TF-IDF como meio de otimizar o conteúdo.
Em um mundo onde IA, redes neurais e aprendizado de máquina são a norma, o TF-IDF é como uma bicicleta infantil em rodinhas em comparação com uma Ferrari.
Roger Montti, comerciante de pesquisa e palestrante
Por que o TF-IDF é tão bom para muitos SEOs?
Apesar do uso limitado do Google dessa tecnologia de meio século, muitos especialistas em SEO acreditam que o TF-IDF é o caminho para o destaque nos mecanismos de busca. Por que é que?
TF-IDF é um conceito relativamente obscuro dentro da comunidade de SEO. Porque não é familiar para eles, Os SEOs assumem que a tecnologia é de ponta. Isso dá-lhe uma certa quantidade de cachet.
A maioria dos SEOs desconhece a história do TF-IDF. Eles não percebem sua verdadeira idade nem seu verdadeiro propósito. Dica, não é para otimização de conteúdo.
Os SEOs acreditam que o TF-IDF desempenha um papel importante nos algoritmos de busca do Google. Como o Google tem patentes e alguns posts que fazem referência ao TF-IDF, há uma falsa suposição sobre o papel que essa tecnologia desempenha.
O TF-IDF parece sofisticado para a maioria dos SEOs. É raro que os SEOs tenham experiência em ciência de dados. Nesse contexto, é fácil supor que a aparente complexidade do TF-IDF é igual à eficácia.
Quem não gostaria de usar uma tecnologia sofisticada e inovadora de otimização de mecanismos de busca? Especialmente quando soa tão promissor!
Exceto que não é.
Os problemas com o TF-IDF
Existem várias ferramentas de SEO, gratuitas ou baratas, que pretendem usar o TF-IDF como um método para otimizar o conteúdo para SEO. Todos eles sofrem dos seguintes problemas.
TF-IDF é uma abordagem primitiva
Perguntei a JR Oakes, diretor sênior de pesquisa técnica de SEO da Adapt Partners, sua opinião sobre o TF-IDF. Ele oferece uma análise sucinta sobre seus limites.
O TF-IDF é uma boa medida da importância de um documento, em comparação com outros documentos, para um termo explícito. Onde não dá certo é que você pode ter um documento que é altamente relevante para “bebê” de acordo com o TF-IDF, mas você estava procurando por “infant”. Como o documento (que era mais relevante para “bebê”) usa esse termo de forma esparsa, ele não é visto como uma correspondência relevante.
O Google entende que "bebê" e "bebê" são termos fortemente relacionados (geralmente sinônimos), e uma página com relevância para um é mais do que provavelmente relevante para o outro, a menos que haja pistas de contexto no restante da consulta que digam o contrário . Isso se baseia na co-ocorrência de uso na Internet, bem como na probabilidade de que ambos sejam usados em contextos semelhantes.
Outro bom exemplo é um erro de ortografia. Se você tiver documentos sobre sapatos “reebok” e pesquisar “rebok”, com TF-IDF, provavelmente encontrará a página em que alguém errou a ortografia. O Google entenderá isso como o mesmo e retornará os resultados apropriados.
JR Oakes, Diretor Sênior, Pesquisa Técnica de SEO na Adapt Partners
Os aplicativos TF-IDF dependem dos resultados de pesquisa do Google
É a frequência do documento inversa da frequência do termo usando esses documentos conforme aparecem na SERP. Esses aplicativos geralmente dependem das 10 ou 20 principais páginas da SERP cegamente, sem serem mais ponderadas e investigar por que essas páginas contêm esses tópicos.
O uso de tão poucos documentos como corpus afeta significativamente a qualidade dos resultados. Eles não consideram os outliers com conteúdo de baixa qualidade ou itens de conteúdo curtos que não agregam valor a esse modelo.
Pegar os principais resultados do Google ignora discrepâncias para fatores fora da página; as páginas que estão bem classificadas, apesar de seu conteúdo. O erro envolvido é tão grande que, mesmo levando em conta essas coisas, você não tem as informações necessárias para tomar decisões e potencialmente colocá-lo no caminho errado.
Usando economias de tempo como processamento de linguagem natural. Você tem que processar tudo o que está por aí em um tópico.
As soluções de densidade de palavras-chave e TF-IDF jogam tudo isso pela janela. Se você seguir o conselho deles, terá tanta probabilidade de ser bem-sucedido quanto se tivesse lançado os dados.
Entrei em contato com Bill Slawski, diretor de pesquisa de SEO da Go Fish Digital. Bill analisa as patentes de busca do Google e escreve sobre elas em seu blog, SEO by the Sea, desde 2005.
O TF-IDF é referido em várias patentes do Google como algo que o mecanismo de pesquisa pode usar como parte de processos por trás de coisas como gerar refinamentos de consulta. Como o Google tem acesso ao seu corpus de documentos na Web e às palavras usadas nesses documentos em seu índice, isso é muito razoável.
A parte IDF do TF-IDF pode ser usada para identificar quão raras ou quão comuns são as palavras no Corpus do Google na Web. Infelizmente, o Google não compartilha esse corpus.
Quando você realiza uma consulta, o Google diz em quantos resultados um termo de consulta aparece, mas essa quantidade é uma estimativa de uma porcentagem de documentos no corpus da Web do Google (como uma das patentes do Google nos diz). -O IDF em um documento sem o corpus do Google não é capaz de determinar quão comuns ou raras são as palavras em um documento que realmente não usa o Corpus do Google.
Existem alguns fabricantes de ferramentas que fornecem ferramentas TF-IDF. Eles fazem coisas como ver quais termos aparecem nas páginas que têm uma classificação alta para termos de consulta específicos que você insere. Tenha em mente que estes não são necessariamente semanticamente relacionados entre si. Embora eu tenha visto algumas alegações de que o TF-IDF usado dessa maneira pode identificar palavras que são semanticamente relacionadas umas às outras.
Bill Slawski, diretor de pesquisa de SEO da Go Fish Digital.
TF-IDF analisa páginas que atingem objetivos diferentes e mescla isso
Confiar nas páginas “N” superiores da SERP cria outros problemas. Você pode estar usando páginas muito gerais ou muito específicas ou direcionadas a um setor diferente. O conteúdo pode ser mal escrito e ter um valor significativo fora da página que está impulsionando sua classificação. Veja, por exemplo, as páginas de destino das páginas de destino que foram apoiadas nas SERPs por estratégias de criação de links.
A lista de palavras-chave topicamente relevantes não é necessariamente apropriada para o seu negócio
O TF-IDF fornece uma lista de palavras-chave topicamente relevantes associadas a esses itens de conteúdo. Mas você ainda precisa determinar a relevância dessas frases para o seu negócio. Se você escrever uma postagem de blog que se baseia em uma página de destino ou página de conteúdo de baixa qualidade, ou uma que não se conecte com sua intenção, não será adequado.
O TF-IDF é fortemente orientado por palavras-chave
As páginas não são sobre palavras-chave. Uma página que funciona bem para muitas coisas, é sobre muitas coisas. Usar o TF-IDF de uma palavra-chave para criar ou otimizar uma página deixa muito de fora. Especificamente, todos os outros resultados de pesquisa de todas essas outras palavras-chave são diferentes. Isso é uma grande falta.
Palavras-chave de termo podem aparecer cumulativamente, derivação e sinônimos e outros conceitos de relação. Esse tipo de desmascaramento usando palavras-chave. Esse é o viés que é criado usando apenas as principais “N” páginas ou palavras-chave.
Em última análise, você nunca pode realmente saber se alguma dessas páginas é realmente escrita habilmente de maneira abrangente. Cada uma dessas páginas classifica para “N” outros tópicos também, o que resulta em um conjunto de páginas que você precisa avaliar . Com base nessas páginas e no que elas tratam, ele pode continuar a se ramificar.
Um foco de palavra-chave pode levar a coisas como linguagem realmente não natural; o tipo de conteúdo lixo de baixa qualidade em que eles estão forçando palavras-chave no conteúdo a todo custo. Alternativamente, o conteúdo pode ser bom, mas não tem conexão com nada no seu site.
Andy Crestodina, cofundador/diretor de marketing da Orbit Media Studios, coloca desta forma.
“Bom artigo, mas o TF-IDF poderia ter sido um pouco melhor…” Quando recebo esse comentário de um leitor, começo a me preocupar com coisas como frequência inversa de documentos.
Sim, escolha uma frase-chave primária ao seu alcance. Sim, use essa frase no título, cabeçalho e corpo do texto. Sim, trabalhe nessas frases e subtópicos semanticamente relacionados. Sim, responda às perguntas relevantes do tipo “as pessoas também fazem”. Mas não, não calcule TF-IDF. Porque isso é simplesmente bobo.
Em vez disso, escreva algo original, algo inesperadamente útil. Preocupe-se mais em encantar seu leitor. Faça isso e você enviará todos os sinais de busca corretos. Você ganhará links, tempo de permanência, boca a boca e pesquisas de marca. Esqueça a matemática e faça algo incrível. Seus leitores estão esperando que você aceite este conselho.Andy Crestodina, cofundador/diretor de marketing da Orbit Media Studios
Usar o TF-IDF para determinar a importância é uma métrica com falhas
Calcular importância por frequência de uso na SERP versus relevância é uma métrica absolutamente falha. Se algumas entradas na SERP focarem em uma intenção e as outras focarem em outra, o termo ponderação (importância) pode ser pontuado em 50%. No entanto, se todos usarem algum tipo de palavra comum, isso será julgado como mais importante.
Então, você está tentando apelar para essa intenção. Mas o modelo irá desencorajá-lo a seguir esse caminho porque apenas cinco dos resultados usam o termo. O modelo vai dizer que é apenas cinco em 10.

Em outras palavras, se você tiver conteúdo de alta qualidade, focado em uma intenção diferente, você será desviado. Se você tem conteúdo de baixa qualidade com altos fatores fora da página, isso o levará ao caminho errado. Se você tem uma intenção mista, isso vai te tirar do curso. Então, usar isso como uma métrica é apenas lixo.
Os aplicativos TF-IDF se concentram apenas no nível da página
Restringindo-se ao nível da página, os aplicativos TF-IDF não podem conectar os pontos entre o restante do conteúdo do seu site. Uma página sobre um tópico normalmente não é suficiente. Para ter um bom desempenho, você precisa de outro conteúdo que alimente sua autoridade e trabalhe em conjunto por meio de interligação adequada e uso de texto âncora relevante .

Uma nota não fornece informações
Classificar uma página com base em sua conformidade com o TF-IDF parece uma boa ideia. Mas se você não puder mergulhar e aprender mais sobre esse site ou página, essas informações não terão sentido e não serão acionáveis.
A página com a nota mais alta pode:
- Tenha um objetivo diferente do seu.
- Seja muito mais forte ou mais fraco que o seu.
- Tenha dois objetivos.
- Pode muito bem cobrir este tópico, mas também cobrir outra coisa.
Portanto, seu objetivo de simplificar este processo de projeto de pesquisa com o TF-IDF é inatingível. Ele lhe deu essa nota, mas você ainda precisa voltar e pesquisá-la manualmente para ver se os dados do TF IDF são válidos para cada página.
De que adianta isso?
Por que usar o TF-IDF se você recebe uma nota e agora ainda precisa trabalhar manualmente na página? A tecnologia deve permitir que você conduza uma análise sofisticada, incluindo:
- Análise de sobreposição de tópicos explícitos desse tópico e de todas as outras palavras para as quais eles classificam em relação à sua página e para o que ela classifica.
- Estrutura competitiva do site
- A intenção que a concorrência está olhando para o serviço.
É aqui que o TF-IDF cai por terra. Ele não fornece nenhum valor de atalho no qual você possa confiar.
Não ser capaz de usar a tecnologia é uma metodologia falha. Porque você ainda precisa fazer essa camada adicional de pesquisa para obter essa análise direta do que significa abordar uma intenção versus abordar outra.
Como o TF-IDF se encaixa em um fluxo de trabalho
Ferramentas que empregam TF-IDF geram maus hábitos para escritores e SEOs. Eles tentam tecer palavras que não se encaixam naturalmente ou podem adicionar seções que não se associam bem à narrativa.
Esses aplicativos ignoram a relação entre pesquisador e escritor. Entregar uma lista de palavras que podem não se conectar com a visão do escritor vai criar conflito. Eles podem ser inspirados por algumas dessas palavras, mas não é a solução de habilitação de fluxo de trabalho que finge ser.
O que acontece se você entregar uma lista de palavras-chave usando essa metodologia? Alguns deles estão em um tópico e alguns deles estão em outra intenção. A pessoa que está recebendo não vai saber o que fazer com isso. Simplesmente não parece certo.
Os verdadeiros estrategistas de conteúdo sabem que precisam avaliar. Eles precisam fazer o trabalho para entender o que significa ser um especialista no assunto, para entender a intenção do usuário.
Devo tentar ser como a página que recebe uma ótima nota? Porque se eu fizer isso, a probabilidade de sucesso é tão aleatória quanto qualquer outra metodologia de pesquisa. Francamente, se eu tiver que fazer toda essa pesquisa manual sobre essa métrica que tenho, que valor ela realmente fornece? Eu não posso confiar nisso.
Combinando TF-IDF com outros pontos de dados
O uso de dados TF-IDF com outros pontos de dados falhos leva a conclusões falsas. Aqui estão alguns que vemos usados em conexão com o TF-IDF.
Volume de pesquisa
Talvez você confie no volume de pesquisa para determinar sobre o que escrever. Em vez de avaliar o verdadeiro potencial que uma página que alcança as melhores classificações para esse tópico provavelmente renderá, você a mistura com esse tipo de análise competitiva.
Digamos que uma palavra-chave que você está segmentando tenha 8.100 pesquisas mensais. Mas o concorrente, contra o qual você está modelando, tem conteúdo que classifica dezenas, centenas ou milhares de palavras com essas páginas e sua rede de páginas na web em que elas existem.
Cada um deles pode receber 10.000 visitas mensais, enquanto o seu pode receber apenas 1.000. Então você está usando o volume de pesquisa para calcular o potencial de uma maneira falha. Você está fazendo uma análise competitiva ao classificar o conteúdo sem mergulhar e fazer a pesquisa. Combine essas duas coisas de uma maneira imperfeita, e a orientação que o uso dessas duas métricas fornece tem tanta probabilidade de fornecer sucesso quanto de resultar em fracasso.
Recursos SERP
Usar os recursos SERP e a análise de tipo de página como parte de sua orientação para determinar o tipo de página de que você precisa não corresponde à verdadeira intenção da consulta.
Quais recursos de SERP existem? Eu tenho a oportunidade de ter sucesso?
Mas se você:
- Nunca escrevi nada sobre isso.
- Não tenha nenhuma autoridade fora da página.
- Não tenha coleção de conteúdo ou fundação ou agrupamento de conteúdo.
Então, usar recursos de SERP com volume de pesquisa e conteúdo competitivo apenas adiciona caos e desordem à chance que tenho de desempenho. São dados completamente inúteis.
Concorrência do AdWords e CPC do AdWords
Concorrência do AdWords e CPC do AdWords são métricas estritamente para uso com marketing de mecanismo de pesquisa (anúncios pagos). Nenhuma métrica se correlaciona com a dificuldade. Nem eles representam qualquer relação com o quão fácil ou difícil será para você classificar nos resultados de pesquisa orgânica.
O valor do TF-IDF
Existe algum recurso de resgate do TF-IDF?
- Pode servir para inspirá-lo ou revelar um tópico que você pode não ter considerado.
- Isso pode ajudá-lo a determinar se sua otimização na página está fora de sintonia com o que é natural.
- Pode até ajudar a encontrar concorrentes para os quais você precisa realizar pesquisas detalhadas adicionais.
Kevin Indig, vice-presidente de SEO e conteúdo da G2, escreve rotineiramente sobre novos conceitos de ideias de marketing digital em seu blog. Perguntei se ele poderia fornecer algumas informações sobre sua experiência com o TF-IDF.
Estou um pouco ambivalente sobre TF-IDF. O Google disse que não o usa e, mesmo que o faça, sem o corpus completo do Google (ou seja, todo o conteúdo da Internet indexado pelo Google), não podemos obter o valor preciso de TF/IDF. Devo dizer, no entanto, que sempre que usei ferramentas TF-IDF no passado, meu conteúdo foi classificado melhor do que sem. Portanto, não importa quão impreciso ou inaplicável o conceito pareça ser, parece haver valor em usar algumas dessas ferramentas.
Kevin Indig, vice-presidente de SEO e conteúdo, G2
Isso parece ser semelhante à experiência sobre a qual Joe Hall escreveu em seu post TF-IDF não ajudará seu SEO.
Esses tipos de ferramentas podem ajudar a otimizar o conteúdo para SEO, mas não por causa do TF-IDF . Simplesmente porque eles fornecem orientação e incentivo para reescrever o conteúdo com uma linguagem mais natural que é comumente usada. Essas mesmas ferramentas podem ser feitas usando outras métricas como “densidade de palavras-chave” ou apenas “contagens totais de termos”, que podem ser comparadas entre si.
Joe Hall, consultor de SEO e analista principal da Hall Analysis

Últimas palavras
Mas, o TF-IDF é algo que fornece informações suficientes para suportar todo o seu fluxo de trabalho? De jeito nenhum.
Embora possa parecer bom para muitos SEOs, a realidade é que essa métrica de 50 anos desempenha um papel muito limitado nos algoritmos de pesquisa do Google. Não exatamente de ponta é?
Agora, suas páginas devem ser abrangentes e de alta qualidade? Sim.
Ao modelá-lo usando TF-IDF? Não.
Idealmente, você está tentando construir um modelo de tópico relevante e precisa de relevância como parte desse cálculo. Os mecanismos de pesquisa podem usar o TF-IDF, mas é apenas um fator.
É um componente de toda a imagem do que é necessário para uma pesquisa adequada e otimização do seu conteúdo. Portanto, se alguém está vendendo uma ferramenta TF-IDF como uma solução de ponta a ponta, está vendendo uma história que carece das informações necessárias para tomar grandes decisões para o seu negócio.
Você também pode confiar em seu editor para tomar essas decisões de negócios. Ou apenas jogue os dados. De qualquer forma, é a mesma coisa.
Ainda tem dúvidas sobre o TF-IDF? Leia as respostas aqui, FAQs do TF-IDF para SEO.
O que você deve fazer agora
Quando estiver pronto... aqui estão 3 maneiras de ajudá-lo a publicar conteúdo melhor, mais rápido:
- Reserve um tempo com o MarketMuse Agende uma demonstração ao vivo com um de nossos estrategistas para ver como o MarketMuse pode ajudar sua equipe a atingir suas metas de conteúdo.
- Se você quiser aprender a criar conteúdo melhor e mais rápido, visite nosso blog. Está cheio de recursos para ajudar a dimensionar o conteúdo.
- Se você conhece outro profissional de marketing que gostaria de ler esta página, compartilhe com ele por e-mail, LinkedIn, Twitter ou Facebook.

Andy Crestodina, cofundador/diretor de marketing da Orbit Media Studios