Por qué TF-IDF no resuelve su problema de contenido y SEO, pero parece que lo hace

Publicado: 2019-08-16

En esta publicación, analizamos los desafíos de usar TF-IDF para crear y optimizar contenido web. Si bien el uso de TF-IDF puede hacerte sentir bien, en realidad no está resolviendo el problema. A medida que investigamos los problemas relacionados con su uso, descubrirá que el uso de TF-IDF, de hecho, puede desviarlo.

¿Qué es TF-IDF?

La frecuencia de término inversa de la frecuencia del documento ( TF-IDF ) es una métrica utilizada para determinar la relevancia de un término dentro de un documento. La fórmula cuenta la frecuencia de un término (TF) en un documento determinado y aplica un factor de frecuencia de documento inversa (IDF) para disminuir el peso de los términos que ocurren con mucha frecuencia, mientras que aumenta el peso de los que rara vez ocurren.

Haga clic en la imagen para ver la infografía completa.

TF-IDF se basa en los esfuerzos de Hans Peter Luhn (1957) por su trabajo sobre la frecuencia de los términos y Karen Sparck Jones (1972) por su trabajo sobre la frecuencia inversa del documento. Los lectores astutos notarán que esto es anterior al nacimiento de la red mundial por décadas, lo que plantea una pregunta.

¿Google incluso usa TF-IDF y sigue siendo relevante?

John Mueller de Google ha dado a entender que el uso de TF-IDF por parte del motor de búsqueda es muy limitado . Durante un hangout, el único contexto en el que mencionó TF-IDF fue para la eliminación de palabras vacías.

Eso no es sorprendente dado el avance de Knowledge Graph, Hummingbird, Rankbrain y Topical Layer. Google es un algoritmo en continua evolución que se entrena y aprende constantemente sobre el significado de las cosas y cómo lidiar con las ambigüedades del lenguaje humano.

Estamos viendo funciones SERP variables y un mejor manejo de los resultados que tienen personalización. El motor de búsqueda está mejorando su capacidad para lidiar con la fractura de intenciones (consultas de búsqueda que atraen múltiples intenciones). Pero el algoritmo está lejos de ser perfecto. Como veremos, esto plantea un serio desafío para aquellos que utilizan TF-IDF como medio para optimizar el contenido.

En un mundo donde la IA, las redes neuronales y el aprendizaje automático son la norma, TF-IDF es como una bicicleta para niños con ruedas de entrenamiento en comparación con un Ferrari.

Roger Montti, comercializador de búsqueda y orador

¿Por qué TF-IDF se siente tan bien para muchos SEO?

A pesar del uso limitado de Google de esta tecnología de medio siglo de antigüedad, muchos expertos en SEO creen que TF-IDF es el camino hacia la prominencia en los motores de búsqueda. ¿Porqué es eso?

TF-IDF es un concepto relativamente oscuro dentro de la comunidad SEO. Porque no les es familiar,   Los SEO asumen que la tecnología es de vanguardia. Eso le da una cierta cantidad de caché.

La mayoría de los SEO desconocen la historia de TF-IDF. No se dan cuenta de su verdadera edad ni de su verdadero propósito. Sugerencia, no es para la optimización de contenido.

Los SEO creen que TF-IDF juega un papel importante en los algoritmos de búsqueda de Google. Debido a que Google tiene patentes y un par de publicaciones que hacen referencia a TF-IDF, existe una suposición falsa sobre el papel que juega esta tecnología.

TF-IDF parece sofisticado para la mayoría de los SEO. Es raro que los SEO tengan experiencia en ciencia de datos. En este contexto, es fácil suponer que la aparente complejidad de TF-IDF es igual a la eficacia.

¿Quién no querría utilizar una tecnología innovadora y sofisticada de optimización de motores de búsqueda? ¡Especialmente cuando suena tan prometedor!

Excepto que no lo es.

Los problemas con TF-IDF

Hay una serie de herramientas de SEO, gratuitas o económicas, que pretenden utilizar TF-IDF como método para optimizar el contenido para SEO. Todos ellos sufren de los siguientes problemas.

TF-IDF es un enfoque primitivo

Le pedí a JR Oakes, director sénior de investigación técnica de SEO en Adapt Partners, su opinión sobre TF-IDF. Ofrece un análisis sucinto sobre sus límites.

TF-IDF es una buena medida de la importancia de un documento, en comparación con otros documentos, para un término explícito. Lo que falla es que puede tener un documento que es muy relevante para "bebé" según TF-IDF, pero estaba buscando "infante". Debido a que el documento (que era más relevante para "bebé") usa este término escasamente, no se considera una coincidencia relevante.

Google entiende que "bebé" e "infante" son términos fuertemente relacionados (a menudo sinónimos), y una página relevante para uno, es más que probable que sea relevante para el otro, a menos que haya pistas de contexto en el resto de la consulta que indiquen lo contrario. . Esto se basa en la concurrencia de uso en Internet, así como en la probabilidad de que ambos se usen en contextos similares.

Otro buen ejemplo es una falta de ortografía. Si tiene documentos sobre zapatos "reebok" y busca "rebok", con TF-IDF, lo más probable es que encuentre la página en la que alguien cometió un error ortográfico. Google los entenderá como iguales y devolverá los resultados apropiados.

JR Oakes, director sénior, investigación técnica de SEO en Adapt Partners

Las aplicaciones TF-IDF dependen de los resultados de búsqueda de Google

Es el término frecuencia inversa de la frecuencia del documento utilizando esos documentos tal como aparecen en el SERP. Estas aplicaciones generalmente se basan ciegamente en las 10 o 20 páginas principales en el SERP sin ser más reflexivas e investigar por qué estas páginas contienen estos temas.

El uso de tan pocos documentos como corpus afecta significativamente la calidad de los resultados. No consideran los valores atípicos con contenido de baja calidad o elementos de contenido breve que no brindan valor para ese modelo.

Tomar los mejores resultados de Google ignora los valores atípicos de los factores fuera de la página; las páginas que se clasifican bien a pesar de su contenido. El error involucrado es tan alto que incluso teniendo en cuenta esas cosas, carece de la información necesaria para tomar decisiones y potencialmente lo pone en el camino equivocado.

Uso de ahorradores de tiempo como el procesamiento del lenguaje natural. Tienes que procesar todo lo que hay sobre un tema.

Las soluciones de densidad de palabras clave y TF-IDF tiran todo eso por la ventana. Si sigue sus consejos, es tan probable que tenga éxito como si tirara los dados.

Me comuniqué con Bill Slawski, director de investigación de SEO en Go Fish Digital. Bill ha estado analizando las patentes de búsqueda de Google y escribiendo sobre ellas en su blog, SEO by the Sea, desde 2005.

TF-IDF se menciona en una serie de patentes de Google como algo que el motor de búsqueda puede usar como parte de procesos detrás de cosas tales como generar refinamientos de consultas. Dado que Google tiene acceso a su corpus de documentos en la Web y las palabras utilizadas en esos documentos en su índice, eso es muy razonable.

La parte IDF de TF-IDF se puede usar para identificar cuán raras o comunes son las palabras en Corpus en la Web de Google. Desafortunadamente, Google no comparte ese corpus.

Cuando realiza una consulta, Google dice en cuántos resultados aparece un término de consulta, pero esa cantidad es una estimación de un porcentaje de documentos en el corpus web de Google (como nos dice una de las patentes de Google). Pero cualquiera que no sea Google usa TF -IDF en un documento sin el corpus de Google no es capaz de determinar qué tan comunes o raras son las palabras en un documento que en realidad no usa el corpus de Google.

Hay algunos fabricantes de herramientas que proporcionan herramientas TF-IDF. Hacen cosas como ver qué términos aparecen en las páginas que tienen una clasificación alta para los términos de consulta específicos que ingresa. Tenga en cuenta que estos no están necesariamente relacionados semánticamente entre sí. Aunque he visto algunas afirmaciones de que TF-IDF usado de esta manera puede identificar palabras que están semánticamente relacionadas entre sí.

Bill Slawski, director de investigación de SEO en Go Fish Digital.

TF-IDF mira páginas que logran diferentes objetivos y los fusiona

Confiar en las páginas "N" superiores en el SERP crea otros problemas. Es posible que esté utilizando páginas que son demasiado generales o demasiado específicas o que están dirigidas a una industria diferente. El contenido puede estar mal escrito y tiene un valor significativo fuera de la página que impulsa su clasificación. Tomemos, por ejemplo, las páginas de destino que se han apoyado en los SERP mediante estrategias de construcción de enlaces.

La lista de palabras clave de relevancia temática no es necesariamente apropiada para su negocio

TF-IDF proporciona una lista de palabras clave relevantes por tema asociadas con esos elementos de contenido. Pero aún debe determinar la relevancia de esas frases para su negocio. Si escribe una publicación de blog que sigue el modelo de una página de destino o una página de contenido de baja calidad, o una que no se conecta con su intención, no va a encajar.

TF-IDF está fuertemente impulsado por palabras clave

Las páginas no se tratan de palabras clave. Una página que funciona bien para muchas cosas, se trata de muchas cosas. Usar TF-IDF de una palabra clave para crear u optimizar una página deja mucho de lado. Específicamente, todos los demás resultados de búsqueda de todas esas otras palabras clave son diferentes. Esa es una gran señorita.

Las palabras clave de términos pueden aparecer de forma acumulativa, derivados y sinónimos y otros conceptos de relación. Ese tipo de desacredita el uso de palabras clave. Ese es el sesgo que se crea al usar solo las páginas o palabras clave "N" principales.

En última instancia, nunca se puede saber realmente si alguna de esas páginas está realmente escrita por expertos de manera integral. Cada una de esas páginas se clasifica para "N" otros temas también, lo que da como resultado un conjunto de páginas que debe evaluar . Según esas páginas y de qué tratan, puede continuar ramificándose.

Un enfoque de palabra clave puede conducir a cosas como un lenguaje realmente poco natural; el tipo de contenido basura de baja calidad donde están forzando palabras clave en el contenido a toda costa. Alternativamente, el contenido puede ser bueno, pero no tiene conexión con nada en su sitio.

Andy Crestodina, cofundador y director de marketing de Orbit Media Studios lo expresa de esta manera.

“Buen artículo, pero el TF-IDF podría haber sido un poco mejor…” Cuando reciba ese comentario de un lector, comenzaré a preocuparme por cosas como la frecuencia inversa del documento.

Sí, elija una frase clave principal que esté a su alcance. Sí, usa esa frase en el título, encabezado y cuerpo del texto. Sí, trabaja en esas frases y subtemas relacionados semánticamente. Sí, responda las preguntas relevantes de "la gente también pregunta". Pero no, no calcules TF-IDF. Porque eso es una tontería.

En su lugar, escribe algo original, algo inesperadamente útil. Preocúpate más por deleitar a tu lector. Haga esto y enviará todas las señales de búsqueda correctas. Ganará enlaces, tiempo de permanencia, boca a boca y búsquedas de marca. Olvídate de las matemáticas y haz algo increíble. Sus lectores esperan que siga este consejo.

Andy Crestodina, cofundador / director de marketing de Orbit Media Studios

Usar TF-IDF para determinar la importancia es una métrica defectuosa

Calcular la importancia por la frecuencia de uso en el SERP frente a la relevancia es una métrica absolutamente defectuosa. Si algunas entradas en el SERP se enfocan en una intención y las otras se enfocan en otra, el término ponderación (importancia) puede calificarse en un 50%. Sin embargo, si todos usan algún tipo de palabra común, se considerará más importante.

Entonces, estás tratando de apelar a esa única intención. Pero el modelo lo desanimará de seguir ese camino porque solo cinco de los resultados usan el término. La modelo va a decir que son solo cinco de 10.

TF-IDF lucha con la fractura intencional.

En otras palabras, si tiene contenido de alta calidad, enfocado en una intención diferente, se desviará. Si tiene contenido de baja calidad que tiene altos factores fuera de la página, eso lo llevará por el camino equivocado. Si tienes intenciones mixtas, eso te desviará del rumbo. Así que usar eso como métrica es simplemente basura.

Las aplicaciones TF-IDF solo se enfocan a nivel de página

Al restringirse al nivel de página, las aplicaciones TF-IDF no pueden conectar los puntos entre el resto del contenido de su sitio. Una página sobre un tema normalmente no es suficiente. Para hacerlo bien, necesita otro contenido que alimente su autoridad y trabaje en conjunto mediante la interconexión adecuada y el uso de texto de anclaje relevante .

TF-IDF no puede ver más allá del nivel de página.

Una calificación no proporciona información

Calificar una página en función de su cumplimiento con TF-IDF parece una buena idea. Pero si no puede sumergirse y obtener más información sobre ese sitio o página, esa información no tiene sentido y no se puede procesar.

La página con la calificación más alta podrá:

  • Tener un objetivo diferente al tuyo.
  • Ser mucho más fuerte o más débil que el tuyo.
  • Tener dos objetivos.
  • Bien puede cubrir este tema, pero también cubrir algo más.

Por lo tanto, su objetivo de simplificar el proceso de este proyecto de investigación con TF-IDF es inalcanzable. Le dio esta calificación, pero aún tiene que regresar e investigar manualmente para ver si los datos de TF IDF son válidos para cada página.

¿Cuál es el uso de eso?

¿Por qué usar TF-IDF si obtiene una calificación y ahora tiene que seguir trabajando manualmente en la página? La tecnología debería permitirle realizar un análisis sofisticado que incluya:

  • Análisis explícito de superposición de temas de ese tema y todas las demás palabras para las que se clasifican en comparación con su página y para qué se clasifica.
  • Estructura del sitio competitivo
  • La intención que la competencia busca al servicio.

Aquí es donde TF-IDF fracasa. No proporciona ningún valor de acceso directo en el que pueda confiar.

No poder profundizar en el uso de la tecnología es una metodología defectuosa. Porque todavía tiene que hacer esa capa adicional de investigación para obtener ese análisis directo de lo que significa abordar una intención versus acercarse a otra.

Cómo encaja TF-IDF en un flujo de trabajo

Las herramientas que emplean TF-IDF generan malos hábitos para escritores y SEO. Intentan entretejer palabras que no encajan naturalmente o pueden agregar secciones que no se asocian bien con la narrativa.

Estas aplicaciones ignoran la relación entre investigador y escritor. Entregar una lista de palabras que pueden no conectarse con la visión del escritor creará un conflicto. Pueden estar inspirados en algunas de esas palabras, pero no es la solución de habilitación de flujo de trabajo que pretende ser.

¿Qué sucede si entrega una lista de palabras clave utilizando esta metodología? Algunos de ellos están en un tema y algunos de ellos están en otra intención. La persona que recibe no va a saber qué hacer con esto. Simplemente no se ve bien.

Los verdaderos estrategas de contenido saben que necesitan evaluar. Necesitan hacer el trabajo para comprender lo que significa ser un experto en la materia, para comprender la intención del usuario.

¿Debería tratar de ser como la página que obtiene una calificación excelente? Porque si hago eso, la probabilidad de éxito es tan aleatoria como cualquier otra metodología de investigación. Francamente, si tengo que hacer toda esa investigación manual sobre esta métrica que tengo, ¿qué valor proporciona realmente? No puedo confiar en eso.

Combinación de TF-IDF con otros puntos de datos

El uso de datos TF-IDF con otros puntos de datos defectuosos conduce a conclusiones falsas. Aquí hay algunos que vemos que se usan en relación con TF-IDF.

Volumen de búsqueda

Tal vez confíes en el volumen de búsqueda para determinar sobre qué escribir. En lugar de evaluar el verdadero potencial que probablemente producirá una página que logra las mejores clasificaciones para este tema, lo combina con este tipo de análisis competitivo.

Digamos que una palabra clave a la que se dirige tiene 8100 búsquedas mensuales. Pero el competidor, contra el que está modelando, tiene contenido que se clasifica por docenas, cientos o miles de palabras con esas páginas y su red web de páginas en las que existen.

Cada uno de ellos puede recibir 10.000 visitas mensuales mientras que el tuyo puede recibir solo 1.000. Entonces, está utilizando el volumen de búsqueda para calcular el potencial de una manera defectuosa. Estás haciendo un análisis competitivo al calificar el contenido sin sumergirte y hacer la investigación. Combine esas dos cosas de una manera defectuosa, y la orientación que proporciona el uso de esas dos métricas es tan probable que brinde éxito como que resulte en un fracaso.

Características SERP

El uso de las funciones SERP y el análisis del tipo de página como parte de su orientación para determinar el tipo de página que necesita no habla de la verdadera intención de la consulta.

¿Qué características SERP hay? ¿Tengo la oportunidad de tener éxito?

Pero si tu:

  • Nunca he escrito nada sobre esto.
  • No tienes ninguna autoridad fuera de la página.
  • No tener una colección de contenido o base o grupo de contenido.

Luego, usar funciones SERP con volumen de búsqueda y contenido competitivo solo agrega caos y desorden a la oportunidad que tengo de actuar. Son datos completamente inútiles.

Competencia de AdWords y CPC de AdWords

La competencia de AdWords y el CPC de AdWords son métricas que se usan estrictamente con el marketing de motores de búsqueda (anuncios pagados). Ninguna métrica se correlaciona con la dificultad. Tampoco representan ninguna relación con lo fácil o difícil que será para usted posicionarse en los resultados de búsqueda orgánicos.

El valor de TF-IDF

¿Hay alguna función de canje de TF-IDF?

  • Podría servirte para inspirarte o revelarte un tema que tal vez no hayas considerado.
  • Puede ayudarlo a determinar si su optimización en la página está fuera de línea con lo que es natural.
  • Incluso podría ayudar a encontrar competidores para los que necesita realizar una investigación detallada adicional.

Kevin Indig, vicepresidente de SEO y contenido, G2 escribe habitualmente en su blog sobre conceptos de ideas frescas de marketing digital. Le pregunté si podía darme una idea de su experiencia con TF-IDF.

Soy un poco ambivalente sobre TF-IDF. Google dijo que no lo usa e incluso si lo hiciera, sin el corpus completo de Google (es decir, todo el contenido en Internet que Google ha indexado), no podemos obtener el valor exacto de TF/IDF. Debo decir, sin embargo, que cada vez que usé las herramientas TF-IDF en el pasado, mi contenido se clasificó mejor que sin ellas. Por lo tanto, no importa cuán inexacto o inaplicable parezca ser el concepto, parece ser valioso usar algunas de estas herramientas.

Kevin Indig, vicepresidente de SEO y contenido, G2

Esto parece ser similar a la experiencia sobre la que escribió Joe Hall en su publicación TF-IDF no ayudará a su SEO.

Este tipo de herramientas pueden ayudar a optimizar el contenido para SEO, pero no gracias a TF-IDF . Simplemente porque brindan orientación y aliento para reescribir el contenido con un lenguaje más natural que el que se usa comúnmente. Estas mismas herramientas se pueden crear utilizando otras métricas como "densidad de palabras clave" o simplemente "recuento total de términos", que se pueden comparar entre sí.

Joe Hall, consultor SEO y analista principal de Hall Analysis

Ultimas palabras

Pero, ¿es TF-IDF algo que proporciona suficiente información para respaldar todo su flujo de trabajo? De nada.

Si bien puede sentirse bien para muchos SEO, la realidad es que esta métrica de 50 años juega un papel muy limitado en los algoritmos de búsqueda de Google. No es exactamente de vanguardia, ¿verdad?

Ahora bien, ¿sus páginas deben ser completas y de alta calidad? Sí.

¿Modelándolo usando TF-IDF? No.

Idealmente, está tratando de construir un modelo de tema relevante y necesita relevancia como parte de este cálculo. Los motores de búsqueda pueden usar TF-IDF, pero es solo un factor.

Es un componente de la imagen completa de lo que se necesita para una investigación adecuada y optimizar su contenido. Entonces, si alguien vende una herramienta TF-IDF como una solución integral, le está vendiendo una historia que carece de la información necesaria para tomar buenas decisiones para su negocio.

También podría confiar en su editor para tomar esas decisiones comerciales. O simplemente tirar los dados. De cualquier manera, es lo mismo.

¿Todavía tiene preguntas sobre TF-IDF? Lea las respuestas aquí, TF-IDF para preguntas frecuentes sobre SEO.

lo que debes hacer ahora

Cuando esté listo... aquí hay 3 formas en que podemos ayudarlo a publicar mejor contenido, más rápido:

  1. Reserve tiempo con MarketMuse Programe una demostración en vivo con uno de nuestros estrategas para ver cómo MarketMuse puede ayudar a su equipo a alcanzar sus objetivos de contenido.
  2. Si desea aprender cómo crear mejor contenido más rápido, visite nuestro blog. Está lleno de recursos para ayudar a escalar el contenido.
  3. Si conoce a otro profesional del marketing al que le gustaría leer esta página, compártala por correo electrónico, LinkedIn, Twitter o Facebook.