Почему TF-IDF не решает проблемы с контентом и SEO, но кажется, что решает

Опубликовано: 2019-08-16

В этом посте мы рассмотрим проблемы использования TF-IDF для создания и оптимизации веб-контента. Хотя использование TF-IDF может улучшить ваше самочувствие, на самом деле это не решает проблему. Когда мы исследуем проблемы, связанные с его использованием, вы обнаружите, что использование TF-IDF на самом деле может ввести вас в заблуждение.

Что такое TF-IDF?

Частота термина, обратная частоте документа ( TF-IDF ) — это метрика, используемая для определения релевантности термина в документе. Формула подсчитывает частоту термина (TF) в данном документе и применяет коэффициент обратной частоты документа (IDF), чтобы уменьшить вес терминов, которые встречаются очень часто, и увеличить вес терминов, которые встречаются редко.

Нажмите на изображение, чтобы увидеть полную инфографику.

TF-IDF основан на усилиях Ханса Питера Луна (1957) в его работе по частоте терминов и Карен Спарк Джонс (1972) в ее работе по обратной частоте документов. Проницательные читатели заметят, что это предшествует рождению всемирной паутины на десятилетия, что вызывает вопрос.

Использует ли Google TF-IDF и актуален ли он?

Джон Мюллер из Google намекнул, что использование TF-IDF поисковой системой очень ограничено . Во время тусовки единственный контекст, в котором он упомянул TF-IDF, был связан с удалением стоп-слов.

Это неудивительно, учитывая продвижение Knowledge Graph, Hummingbird, Rankbrain и Topical Layer. Google — это постоянно развивающийся алгоритм, который постоянно обучается и изучает, что означают вещи и как справляться с двусмысленностью человеческого языка.

Мы видим переменные функции SERP и лучшую обработку результатов с персонализацией. Поисковая система улучшает свою способность справляться с нарушением намерений (поисковые запросы, которые обращаются к нескольким намерениям). Но алгоритм далек от совершенства. Как мы увидим, это представляет серьезную проблему для тех, кто использует TF-IDF как средство оптимизации контента.

В мире, где искусственный интеллект, нейронные сети и машинное обучение являются нормой, TF-IDF похож на детский велосипед на тренировочных колесах по сравнению с Ferrari.

Роджер Монтти, поисковый маркетолог и спикер

Почему TF-IDF так нравится многим SEO-специалистам?

Несмотря на ограниченное использование Google этой технологии полувековой давности, многие эксперты по SEO считают, что TF-IDF — это путь к известности в поисковых системах. Это почему?

TF-IDF — относительно малоизвестная концепция в SEO-сообществе. Потому что это им незнакомо,   Оптимизаторы предполагают , что технология является передовой. Это придает ему определенную привлекательность.

Большинство оптимизаторов не знают об истории TF-IDF. Они не осознают ни его истинный возраст, ни его истинное предназначение. Подсказка, это не для оптимизации контента.

Оптимизаторы считают, что TF-IDF играет большую роль в поисковых алгоритмах Google. Поскольку у Google есть патенты и несколько сообщений , в которых упоминается TF-IDF, существует ложное представление о роли, которую играет эта технология.

TF-IDF кажется сложным большинству SEO-специалистов. SEO-специалисты редко имеют опыт работы с данными. В этом контексте легко предположить, что кажущаяся сложность TF-IDF равняется эффективности.

Кто бы не хотел использовать сложную, новаторскую технологию поисковой оптимизации? Особенно, когда это звучит так многообещающе!

Но это не так.

Проблемы с TF-IDF

Существует ряд инструментов SEO, бесплатных или недорогих, которые предполагают использование TF-IDF в качестве метода оптимизации контента для SEO. Все они страдают от следующих проблем.

TF-IDF — примитивный подход

Я спросил Дж. Р. Оукса, старшего директора по техническим исследованиям SEO в Adapt Partners, что он думает о TF-IDF. Он предлагает краткий анализ ее пределов.

TF-IDF является хорошей мерой того, насколько документ важен по сравнению с другими документами для явного термина. Единственным недостатком является то, что у вас может быть документ, который имеет большое значение для «ребенка» в соответствии с TF-IDF, но вы искали «младенец». Поскольку в документе (наиболее релевантном слову «ребенок») этот термин используется редко, он не рассматривается как релевантное совпадение.

Google понимает, что термины «ребенок» и «младенец» тесно связаны между собой (часто являются синонимами), и страница, относящаяся к одному, более чем вероятно будет релевантна другому, если только в остальной части запроса нет контекстных подсказок, говорящих об обратном. . Это основано на одновременном использовании в Интернете, а также на вероятности того, что они оба используются в аналогичных контекстах.

Еще один хороший пример — опечатка. Если у вас есть документы об обуви «reebok», и вы ищете «rebok» с помощью TF-IDF, вы, скорее всего, найдете страницу, на которой кто-то сделал орфографическую ошибку. Google распознает их как одинаковые и вернет соответствующие результаты.

Дж. Р. Оукс, старший директор по техническим SEO-исследованиям в Adapt Partners

Приложения TF-IDF полагаются на результаты поиска Google

Это термин частота, обратная частоте документа, использующий эти документы в том виде, в каком они появляются в поисковой выдаче. Эти приложения обычно слепо полагаются на первые 10 или 20 страниц в поисковой выдаче, не задумываясь и не исследуя, почему на этих страницах есть эти темы.

Использование такого небольшого количества документов в качестве корпуса существенно влияет на качество результатов. Они не учитывают выбросы с низкокачественным контентом или короткими элементами контента, которые не представляют ценности для этой модели.

Беря лучшие результаты из Google, игнорируются выбросы для внестраничных факторов; страницы, которые хорошо ранжируются, несмотря на их содержание. Связанная с этим ошибка настолько велика, что даже с учетом этих вещей вам не хватает информации, необходимой для принятия решений, и это потенциально может привести вас на неверный путь.

Использование средств экономии времени, таких как обработка естественного языка. Вы должны обработать все, что есть по теме.

Решения TF-IDF и плотности ключевых слов выбрасывают все это в окно. Если вы последуете их совету, у вас будет столько же шансов на успех, как если бы вы бросили кости.

Я связался с Биллом Славски, директором по SEO-исследованиям в Go Fish Digital. Билл анализирует поисковые патенты Google и пишет о них в своем блоге SEO by the Sea с 2005 года.

TF-IDF упоминается в ряде патентов Google как нечто, что поисковая система может использовать как часть процессов, стоящих за такими вещами, как создание уточнений запроса. Поскольку у Google есть доступ к своему корпусу документов в Интернете и к словам, используемым в этих документах в его индексе, это очень разумно.

IDF-часть TF-IDF может использоваться для определения того, насколько редки или насколько распространены слова в корпусе Google в Интернете. К сожалению, Google не разделяет этот корпус.

Когда вы выполняете запрос, Google сообщает, сколько результатов содержит термин запроса, но это количество является оценкой процента документов в веб-корпусе Google (как сообщает нам один из патентов Google). Но любой, кроме Google, использует TF -IDF в документе без корпуса Google не может определить, насколько распространены или насколько редки слова в документе, который на самом деле не использует корпус Google.

Некоторые производители инструментов предоставляют инструменты TF-IDF. Они делают такие вещи, как смотрят, какие термины появляются на страницах, которые высоко ранжируются по конкретным введенным вами запросам. Имейте в виду, что они не обязательно семантически связаны друг с другом. Хотя я видел некоторые утверждения, что TF-IDF, используемый таким образом, может идентифицировать слова, которые семантически связаны друг с другом.

Билл Славски, директор по SEO-исследованиям в Go Fish Digital.

TF-IDF просматривает страницы, которые достигают разных целей, и объединяет их вместе

Полагаясь на верхние «N» страниц в поисковой выдаче, вы создаете другие проблемы. Возможно, вы используете слишком общие или слишком конкретные страницы или страницы, предназначенные для другой отрасли. Контент может быть плохо написан и иметь значительную внестраничную ценность, которая определяет его рейтинг. Возьмем, к примеру, целевые страницы целевых страниц, которые были поддержаны в поисковой выдаче стратегиями построения ссылок.

Список актуальных ключевых слов не обязательно подходит для вашего бизнеса

TF-IDF предоставляет список релевантных ключевых слов, связанных с этими элементами контента. Но вам все равно нужно определить актуальность этих фраз для вашего бизнеса. Если вы пишете сообщение в блоге, которое моделирует низкокачественную целевую страницу или страницу контента или не соответствует вашим намерениям, оно не подойдет.

TF-IDF сильно зависит от ключевых слов

Страницы — это не ключевые слова. Страница, которая хорошо работает во многих вещах, посвящена многим вещам. Использование TF-IDF из одного ключевого слова для создания или оптимизации страницы многое упускает. В частности, все остальные результаты поиска по всем этим другим ключевым словам отличаются. Это огромный промах.

Ключевые слова терминов могут появляться кумулятивно, в виде корней, синонимов и других концепций родства. Такого рода разоблачения с использованием ключевых слов. Это предвзятость создается использованием только первых «N» страниц или ключевых слов.

В конечном счете, вы никогда не сможете по-настоящему узнать, действительно ли какая-либо из этих страниц написана искусно и всесторонне. Каждая из этих страниц ранжируется и по «N» другим темам, что приводит к созданию пула страниц, которые вы должны оценить . В зависимости от этих страниц и того, о чем они, он может продолжать разветвляться.

Фокус на ключевых словах может привести к таким вещам, как действительно неестественный язык; своего рода мусорный низкокачественный контент, где они любой ценой навязывают ключевые слова в контент. В качестве альтернативы контент может быть хорошим, но он не имеет никакого отношения ни к чему на вашем сайте.

Так говорит Энди Крестодина, соучредитель и директор по маркетингу Orbit Media Studios.

«Хорошая статья, но TF-IDF мог бы быть немного лучше…» Когда я получу этот комментарий от читателя, я начну беспокоиться о таких вещах, как обратная частота документов.

Да, выберите основную ключевую фразу в пределах досягаемости. Да, используйте эту фразу в заголовке, заголовке и основном тексте. Да, работайте в тех семантически связанных фразах и подтемах. Да, ответьте на соответствующие вопросы типа «люди также задают». Но нет, не рассчитывайте TF-IDF. Потому что это просто глупо.

Вместо этого напишите что-нибудь оригинальное, неожиданно полезное. Больше беспокойтесь о том, чтобы доставить удовольствие вашему читателю. Сделайте это, и вы отправите все правильные поисковые сигналы. Вы выиграете ссылки, время ожидания, сарафанное радио и поиск бренда. Забудьте о математике и сделайте что-нибудь потрясающее. Вы, читатели, надеетесь, что вы последуете этому совету.

Энди Крестодина, соучредитель и директор по маркетингу Orbit Media Studios

Использование TF-IDF для определения важности — ошибочная метрика

Расчет важности по частоте использования в поисковой выдаче по сравнению с релевантностью — абсолютно ошибочный показатель. Если некоторые записи в поисковой выдаче сосредоточены на одном намерении, а другие — на другом, вес термина (важность) может быть оценен на уровне 50%. Однако, если все используют какое-то общее слово, это будет считаться более важным.

Итак, вы пытаетесь апеллировать к этому единственному намерению. Но модель будет отговаривать вас от следования по этому пути, потому что этот термин используется только в пяти результатах. Модель собирается сказать, что это всего лишь пять из 10.

TF-IDF борется с преднамеренным переломом.

Другими словами, если у вас есть качественный контент, ориентированный на другое намерение, вы собьетесь с пути. Если у вас есть некачественный контент с высоким показателем вне страницы, это приведет вас по ложному пути. Если у вас смешанные намерения, это собьет вас с курса. Так что использовать это как метрику - просто мусор.

Приложения TF-IDF фокусируются только на уровне страницы

Ограничивая себя уровнем страницы, приложения TF-IDF не могут соединить точки между остальным контентом на вашем сайте. Одной страницы по теме обычно недостаточно. Чтобы преуспеть, вам нужен другой контент, который подпитывает ваш авторитет и работает вместе за счет соответствующих взаимосвязей и использования соответствующего анкорного текста .

TF-IDF не может видеть дальше уровня страницы.

Оценка не дает понимания

Оценка страницы на основе ее соответствия TF-IDF кажется хорошей идеей. Но если вы не можете углубиться и узнать больше об этом сайте или странице, эта информация бессмысленна и бесполезна.

Страница с наивысшей оценкой может:

  • Имейте другую цель, отличную от вашей.
  • Будь намного сильнее или слабее себя.
  • Имейте две цели.
  • Может хорошо освещать эту тему, но и освещать что-то еще.

Таким образом, ваша цель упростить процесс исследовательского проекта с помощью TF-IDF недостижима. Это дало вам эту оценку, но затем вам все равно придется вернуться и вручную изучить ее, чтобы убедиться, что данные TF IDF действительны для каждой страницы.

Какая в этом польза?

Зачем использовать TF-IDF, если вы получили оценку, а теперь все еще должны вручную обрабатывать страницу? Технология должна позволять вам проводить сложный анализ, включая:

  • Явный анализ перекрытия тем этой темы и всех других слов, по которым они ранжируются, по сравнению с вашей страницей и тем, по чему она ранжируется.
  • Конкурентная структура сайта
  • Намерение, которое конкуренция ищет для обслуживания.

Вот где TF-IDF терпит неудачу. Он не предоставляет ярлыка, на который можно положиться.

Неспособность копаться в использовании технологии является ошибочной методологией. Потому что вам все еще нужно провести этот дополнительный уровень исследования, чтобы получить прямой анализ того, что означает подход к одному намерению по сравнению с подходом к другому.

Как TF-IDF вписывается в рабочий процесс

Инструменты, использующие TF-IDF, способствуют формированию вредных привычек у писателей и SEO-специалистов. Они пытаются вплетать слова, которые не подходят естественным образом, или могут добавлять разделы, которые плохо сочетаются с повествованием.

Эти приложения игнорируют отношения между исследователем и писателем. Передача списка слов, которые могут не соответствовать видению автора, приведет к конфликту. Они могут быть вдохновлены некоторыми из этих слов, но это не то решение для обеспечения рабочего процесса, которым оно претендует.

Что произойдет, если вы предоставите список ключевых слов, используя эту методологию? Некоторые из них посвящены одной теме, а некоторые — другому намерению. Человек на приеме не будет знать, что с этим делать. Это просто не просто не выглядит правильно.

Настоящие контент-стратеги знают, что им нужна оценка. Им нужно проделать работу, чтобы понять, что значит быть экспертом в предметной области, понять намерения пользователя.

Должен ли я стараться быть таким же, как страница, получившая отличную оценку? Потому что, если я это сделаю, вероятность успеха так же случайна, как и любая другая исследовательская методология. Откровенно говоря, если мне придется провести все эти ручные исследования по этой метрике, какую я на самом деле принесу? Я не могу на это полагаться.

Объединение TF-IDF с другими точками данных

Использование данных TF-IDF с другими ошибочными точками данных приводит к ложным выводам. Вот некоторые из них, которые, как мы видим, используются в связи с TF-IDF.

Количество запросов

Возможно, вы полагаетесь на объем поиска, чтобы определить, о чем писать. Вместо того, чтобы оценивать истинный потенциал страницы, достигшей высоких позиций в этой теме, вы смешиваете ее с этим типом конкурентного анализа.

Предположим, ключевое слово, на которое вы ориентируетесь, имеет 8 100 поисковых запросов в месяц. Но у конкурента, против которого вы создаете модель, есть контент, ранжируемый по десяткам, сотням или тысячам слов с этими страницами и их веб-сетью страниц, в которой они существуют.

Каждый из них может получать 10 000 посещений в месяц, а ваш — только 1000. Итак, вы неправильно используете объем поиска для расчета потенциала. Вы проводите конкурентный анализ, оценивая контент, не погружаясь и не проводя исследования. Объедините эти две вещи ошибочным образом, и руководство, которое дает использование этих двух показателей, с такой же вероятностью приведет к успеху, как и к провалу.

Особенности поисковой выдачи

Использование функций поисковой выдачи и анализа типа страницы как часть вашего руководства по определению типа страницы, которая вам нужна, не говорит об истинном намерении запроса.

Какие функции SERP существуют? Есть ли у меня шанс добиться успеха?

Но если ты:

  • Никогда ничего не писал по этому поводу.
  • Не иметь полномочий за пределами страницы.
  • Не иметь коллекции контента, основы или кластера контента.

Затем использование функций SERP с объемом поиска и конкурентным контентом просто добавляет хаоса и беспорядка к моим шансам на успех. Совершенно бесполезные данные.

Конкуренция AdWords и цена за клик AdWords

Конкуренция AdWords и цена за клик AdWords – это показатели, которые предназначены исключительно для использования в поисковом маркетинге (платная реклама). Ни один из показателей не коррелирует со сложностью. Они также не представляют никакого отношения к тому, насколько легко или сложно вам будет ранжироваться в результатах обычного поиска.

Значение TF-IDF

Есть ли в TF-IDF какая-либо компенсирующая функция?

  • Это может вдохновить вас или раскрыть тему, которую вы, возможно, не рассматривали.
  • Это может помочь вам определить, не выходит ли ваша оптимизация на странице из естественного состояния.
  • Это может даже помочь найти конкурентов, для которых нужно провести дополнительное детальное исследование.

Кевин Индиг, вице-президент по SEO и контенту, G2 регулярно публикует в своем блоге свежие концепции цифрового маркетинга. Я спросил, может ли он рассказать о своем опыте работы с TF-IDF.

Я немного неоднозначно отношусь к TF-IDF. Google сказал, что не использует его, и даже если бы он использовал его, без полного корпуса Google (то есть всего контента в Интернете, проиндексированного Google), мы не можем получить точное значение TF/IDF. Однако я должен сказать, что всякий раз, когда я использовал инструменты TF-IDF в прошлом, мой контент оценивался лучше, чем без него. Итак, какой бы неточной или неприменимой ни казалась эта концепция, кажется, что использование некоторых из этих инструментов имеет смысл.

Кевин Индиг, вице-президент по SEO и контенту, G2

Это похоже на опыт, о котором Джо Холл написал в своем посте TF-IDF не поможет вашему SEO.

Эти типы инструментов могут помочь оптимизировать контент для SEO, но не благодаря TF-IDF . Просто потому, что они дают рекомендации и стимулы к переписыванию контента с использованием более естественного языка, который обычно используется. Эти же инструменты могут быть созданы с использованием других показателей, таких как «плотность ключевых слов» или просто «общее количество терминов», которые можно сравнивать друг с другом.

Джо Холл, SEO-консультант и главный аналитик Hall Analysis

Последние слова

Но предоставляет ли TF-IDF достаточно информации для поддержки всего вашего рабочего процесса? Нисколько.

Хотя многим SEO-специалистам это может понравиться, реальность такова, что эта 50-летняя метрика играет очень ограниченную роль в поисковых алгоритмах Google. Не совсем передовой, не так ли?

Итак, должны ли ваши страницы быть всеобъемлющими и качественными? Да.

Путем моделирования с помощью TF-IDF? Нет.

В идеале вы пытаетесь построить модель релевантной темы, и вам действительно нужна релевантность как часть этого расчета. Поисковые системы могут использовать TF-IDF, но это всего лишь один фактор.

Это один из компонентов общей картины того, что необходимо для правильного исследования и оптимизации вашего контента. Таким образом, если кто-то продает инструмент TF-IDF как комплексное решение, он продает вам историю, в которой отсутствует необходимая информация для принятия важных решений для вашего бизнеса.

С тем же успехом вы могли бы доверить принятие этих бизнес-решений своему редактору. Или просто бросьте кости. В любом случае, это то же самое.

Остались вопросы о TF-IDF? Прочитайте ответы здесь, часто задаваемые вопросы по TF-IDF для SEO.

Что вы должны сделать сейчас

Когда вы будете готовы... вот 3 способа, которыми мы можем помочь вам публиковать более качественный контент и быстрее:

  1. Забронируйте время с MarketMuse Запланируйте живую демонстрацию с одним из наших специалистов по стратегии, чтобы увидеть, как MarketMuse может помочь вашей команде достичь своих целей в отношении контента.
  2. Если вы хотите узнать, как быстрее создавать качественный контент, посетите наш блог. Он полон ресурсов, помогающих масштабировать контент.
  3. Если вы знаете другого маркетолога, которому было бы интересно прочитать эту страницу, поделитесь ею с ним по электронной почте, LinkedIn, Twitter или Facebook.