为什么 TF-IDF 不能解决您的内容和 SEO 问题,但感觉确实如此
已发表: 2019-08-16在这篇文章中,我们将探讨使用 TF-IDF 创建和优化 Web 内容的挑战。 虽然使用 TF-IDF 可能会让您感觉良好,但这并不能真正解决问题。 当我们调查围绕其使用的问题时,您会发现使用 TF-IDF 实际上可能会让您误入歧途。
什么是 TF-IDF?
词频逆文档频率 ( TF-IDF ) 是用于确定文档中某个词的相关性的指标。 该公式计算给定文档中术语 (TF) 的频率,并应用逆文档频率 (IDF) 因子来减少非常频繁出现的术语的权重,同时增加很少出现的术语的权重。

TF-IDF 基于Hans Peter Luhn (1957) 在词频方面的工作和Karen Sparck Jones (1972) 在逆文档频率方面的工作。 精明的读者会注意到,这比万维网的诞生早了几十年,这就引出了一个问题。
谷歌甚至使用 TF-IDF 并且它仍然相关吗?
Google 的 John Mueller 暗示搜索引擎对TF-IDF 的使用非常有限。 在一次环聊中,他提到 TF-IDF 的唯一上下文是删除停用词。
鉴于知识图谱、蜂鸟、Rankbrain 和主题层的进步,这并不奇怪。 谷歌是一种不断发展的算法,它不断地训练和学习事物的含义以及如何处理人类语言的歧义。

我们看到了可变的 SERP 功能和更好地处理具有个性化的结果。 搜索引擎正在提高其处理意图断裂(吸引多个意图的搜索查询)的能力。 但算法远非完美。 正如我们将看到的,这对那些使用 TF-IDF 作为优化内容的手段的人提出了严峻的挑战。
在人工智能、神经网络和机器学习成为常态的世界中,与法拉利相比,TF-IDF 就像一辆带训练轮的儿童自行车。
Roger Montti,搜索营销人员和演讲者
为什么许多 SEO 对 TF-IDF 感觉如此好?
尽管谷歌对这项已有半个世纪历史的技术的使用有限,但许多 SEO 专家认为 TF-IDF 是通往搜索引擎突出地位的途径。 这是为什么?
TF-IDF 在 SEO 社区中是一个相对模糊的概念。 因为他们不熟悉, SEO 假设该技术是尖端的。 这给了它一定的声望。
大多数 SEO 不了解 TF-IDF 的历史。 他们没有意识到它的真实年龄,也没有意识到它的真正目的。 提示,它不是为了内容优化。
SEO 认为 TF-IDF 在 Google 的搜索算法中发挥着重要作用。 由于 Google 拥有专利和一些引用 TF-IDF 的帖子,因此对该技术所扮演的角色存在错误的假设。
TF-IDF 对大多数 SEO 来说似乎很复杂。 SEO 很少有数据科学背景。 在这种情况下,很容易假设 TF-IDF 的明显复杂性等于有效性。
谁不想使用复杂的、突破性的搜索引擎优化技术? 尤其是当它听起来很有希望的时候!
除非它不是。
TF-IDF的问题
有许多免费或廉价的 SEO 工具,声称使用 TF-IDF 作为优化 SEO 内容的方法。 他们都受到以下问题的困扰。
TF-IDF 是一种原始方法
我向 Adapt Partners 技术 SEO 研究高级总监 JR Oakes 询问了他对 TF-IDF 的看法。 他对其局限性进行了简洁的分析。
与其他文档相比,TF-IDF 可以很好地衡量文档对于显式术语的重要性。 根据 TF-IDF,您可能有一个与“婴儿”高度相关的文档,但您正在搜索“婴儿”。 因为文档(与“婴儿”最相关)很少使用这个术语,所以它不被视为相关匹配。
谷歌理解“婴儿”和“婴儿”是密切相关(通常是同义词)的术语,并且与一个相关的页面很可能与另一个相关,除非在查询的其余部分中有上下文线索另有说明. 这是基于互联网上同时出现的使用情况以及它们在相似环境中使用的可能性。
另一个很好的例子是拼写错误。 如果你有关于“reebok”鞋的文档,并且使用 TF-IDF 搜索“rebok”,你很可能会找到有人拼写错误的页面。 Google 会将这些理解为相同,并将返回适当的结果。
JR Oakes,Adapt Partners 技术 SEO 研究高级总监
TF-IDF 应用程序依赖于 Google 搜索结果
使用出现在 SERP 中的这些文档是词频逆文档频率。 这些应用程序通常盲目地依赖 SERP 中的前 10 或 20 个页面,而没有经过深思熟虑和调查为什么这些页面中有这些主题。
使用如此少的文档作为语料库会显着影响结果的质量。 他们不考虑那些无法为该模型提供价值的低质量内容或短内容项目的异常值。
从 Google 获取最佳结果会忽略页外因素的异常值; 尽管有内容但排名很好的页面。 所涉及的错误是如此之高,以至于即使考虑到这些事情,您也缺乏做出决策所需的信息,并可能使您走上错误的道路。
使用自然语言处理等节省时间的方法。 您必须处理有关某个主题的所有内容。
TF-IDF 和关键字密度解决方案将所有这些都抛诸脑后。 如果你听从他们的建议,你就如同掷骰子一样成功。
我联系了 Go Fish Digital 的 SEO 研究总监 Bill Slawski。 自 2005 年以来,Bill 一直在分析 Google 的搜索专利并在他的博客 SEO by the Sea 上撰写相关文章。
TF-IDF 在许多 Google 专利中被称为搜索引擎可以将其用作生成查询细化等过程的一部分。 由于 Google 可以访问其在 Web 上的文档语料库,以及在其索引中用于这些文档的单词,这是非常合理的。
TF-IDF 的 IDF 部分可用于识别 Google 网络语料库中单词的稀有度或常见度。 不幸的是,谷歌不共享该语料库。
当您执行查询时,Google 确实会说明一个查询词出现在多少个结果中,但该数量是 Google 网络语料库中文档百分比的估计值(正如 Google 的一项专利告诉我们的那样。)但是除了 Google 之外的任何人都使用 TF - 没有 Google 语料库的文档上的 IDF 无法确定实际上不使用 Google 语料库的文档中单词的常见程度或稀有程度。
有一些工具制造商提供 TF-IDF 工具。 他们会做一些事情,比如查看在您输入的特定查询字词中排名很高的页面上出现的字词。 请记住,这些不一定在语义上相互关联。 尽管我看到有人声称以这种方式使用的 TF-IDF 可以识别语义上彼此相关的单词。
Go Fish Digital 的 SEO 研究总监 Bill Slawski。
TF-IDF 着眼于实现不同目标的页面并将其合并在一起
依赖 SERP 中的前“N”页会产生其他问题。 您可能正在使用过于笼统或过于具体或针对不同行业的页面。 内容可能写得不好,并且具有推动其排名的重要页外价值。 以通过链接构建策略在 SERP 中支撑的登陆页面为例。
与主题相关的关键字列表不一定适合您的业务
TF-IDF 提供与这些内容项相关的主题相关关键字列表。 但是您仍然必须确定这些短语与您的业务的相关性。 如果您撰写的博客文章模仿了低质量的登录页面或内容页面,或者与您的意图无关的文章,那么它就不合适了。
TF-IDF 主要由关键字驱动
页面与关键字无关。 一个对很多事情都表现良好的页面,是关于很多事情的。 使用一个关键字中的 TF-IDF 来创建或优化页面会遗漏很多东西。 具体来说,所有这些其他关键字的所有其他搜索结果都是不同的。 这是一个巨大的错过。
术语关键字可以累积出现,词干和同义词以及其他相关性概念。 这种使用关键字的揭穿。 这是仅使用前“N”页或关键字造成的偏见。
最终,您永远无法真正知道这些页面中的任何一个是否真的以全面的方式专业编写。 这些页面中的每一个也为“N”个其他主题排名,这导致您必须评估的页面池。 基于这些页面和它们的内容,它可以继续分支。
关键字焦点可能会导致诸如非常不自然的语言之类的事情; 那种垃圾的低质量内容,他们不惜一切代价将关键字强制插入内容中。 或者,内容可能很好,但与您网站上的任何内容都没有联系。
Orbit Media Studios 的联合创始人/首席营销官 Andy Crestodina 是这么说的。
“不错的文章,但 TF-IDF 本来可以更好一点……” 当我从一位读者那里得到这样的评论时,我会开始担心诸如逆文档频率之类的事情。
Orbit Media Studios 联合创始人/首席营销官 Andy Crestodina
是的,选择一个触手可及的主要关键词。 是的,在标题、标题和正文中使用该短语。 是的,在那些语义相关的短语和子主题中工作。 是的,回答相关的“人们也会问”的问题。 但是不,不要计算 TF-IDF。 因为那只是愚蠢的。
相反,写一些原创的、意想不到的有用的东西。 更担心取悦你的读者。 这样做,您将发送所有正确的搜索信号。 您将赢得链接、停留时间、口碑和品牌搜索。 忘记数学,做一些很棒的事情。 你的读者希望你会接受这个建议。
使用 TF-IDF 确定重要性是一个有缺陷的指标
通过 SERP 中的使用频率与相关性来计算重要性是一个绝对有缺陷的指标。 如果 SERP 中的某些条目专注于一个意图,而其他条目专注于另一个,则术语权重(重要性)可能会被评为 50%。 但是,如果每个人都使用某种通用词,那将被认为更重要。

因此,您正试图迎合这一意图。 但是该模型会阻止您继续走这条路,因为只有五个结果使用了该术语。 该模型会说它只有十分之五。

换句话说,如果你有高质量的内容,专注于不同的意图,你就会误入歧途。 如果您的低质量内容具有较高的页外因素,那将导致您走上错误的道路。 如果你有混合的意图,那会让你偏离正轨。 因此,将其用作指标只是垃圾。
TF-IDF 应用只关注页面级别
通过将自身限制在页面级别,TF-IDF 应用程序无法在您网站上的其余内容之间连接点。 一个主题的一页通常不会削减它。 为了做得好,您需要其他内容来增强您的权威,并通过适当的链接和使用相关的锚文本来协同工作。

一个等级不提供洞察力
根据 TF-IDF 的合规性对页面进行评分似乎是个好主意。 但是,如果您无法深入了解该站点或页面的更多信息,那么该信息将毫无意义且不可操作。
评分最高的页面可能:
- 与你的目标不同。
- 比你强或弱得多。
- 有两个目标。
- 可能很好地涵盖了这个主题,但也涵盖了其他内容。
因此,您使用 TF-IDF 简化此研究项目流程的目标是无法实现的。 它给了你这个分数,但是你仍然需要回去手动研究它,看看 TF IDF 数据是否对每一页都有效。
那有什么用呢?
如果您获得了成绩,为什么还要使用 TF-IDF,而现在您仍然必须手动完成页面? 该技术应该使您能够进行复杂的分析,包括:
- 对该主题及其排名的所有其他词与您的页面及其排名的内容进行明确的主题重叠分析。
- 竞争网站结构
- 竞争对手寻求服务的意图。
这就是 TF-IDF 失败的地方。 它没有提供您可以依赖的快捷方式值。
无法深入使用该技术是一种有缺陷的方法。 因为您仍然需要进行额外的研究,才能对接近一个意图与接近另一个意图的意义进行面对面的分析。
TF-IDF 如何融入工作流程
使用 TF-IDF 的工具会导致作家和 SEO 的坏习惯。 他们试图编入不自然地适合的词语,或者可能添加与叙述不太相关的部分。
这些应用程序忽略了研究人员和作者之间的关系。 提交可能与作者的愿景无关的单词列表会造成冲突。 他们可能会受到其中一些话的启发,但这并不是它所假装的工作流支持解决方案。
如果您使用此方法提供关键字列表,会发生什么情况? 其中一些是针对一个主题的,而其中一些是针对另一个意图的。 接收的人不知道该怎么做。 它不仅看起来不正确。
真正的内容策略师知道他们需要评估。 他们需要做的工作是了解成为主题专家意味着什么,了解用户意图。
我是否应该尝试成为获得高分的页面? 因为如果我这样做,成功的可能性与任何其他研究方法一样随机。 坦率地说,如果我必须对我所拥有的这个指标进行所有手动研究,它真正提供了什么价值? 我不能依赖它。
将 TF-IDF 与其他数据点相结合
将 TF-IDF 数据与其他有缺陷的数据点一起使用会导致错误的结论。 以下是我们看到的与 TF-IDF 相关的一些内容。
搜索量
也许您依靠搜索量来确定要写什么。 您无需评估在该主题中获得最高排名的页面可能产生的真正潜力,而是将其与此类竞争分析相结合。
假设您定位的关键字每月有 8,100 次搜索。 但是,您与之建模的竞争对手的内容在这些页面及其存在的页面网络网络中排名数十、数百或数千个单词。
他们每个人每月可能会获得 10,000 次访问,而您的可能只会获得 1,000 次访问。 因此,您使用搜索量来计算潜力是有缺陷的。 您正在通过对内容进行分级来进行竞争分析,而无需深入研究。 以一种有缺陷的方式将这两件事结合起来,使用这两个指标提供的指导既可能带来成功,也可能导致失败。
SERP 功能
使用 SERP 功能和页面类型分析作为指导的一部分来确定您需要的页面类型并不能说明查询的真正意图。
有哪些 SERP 功能? 我有机会成功吗?
但如果你:
- 从来没有写过任何东西。
- 没有任何页外权限。
- 没有内容的集合或内容的基础或集群。
然后使用具有搜索量和竞争内容的 SERP 功能只会给我的表演机会增加混乱和无序。 完全是无用的数据。
AdWords 竞争和 AdWords CPC
AdWords Competition和 AdWords CPC 是严格用于搜索引擎营销(付费广告)的指标。 这两个指标都与难度无关。 它们也不代表您在自然搜索结果中排名的难易程度。
TF-IDF 的价值
TF-IDF有兑换功能吗?
- 它可以激发您的灵感或揭示您可能没有考虑过的主题。
- 它可以帮助您确定您的页面优化是否与自然内容不一致。
- 它甚至可以帮助您找到需要进行额外详细研究的竞争对手。
Kevin Indig,副总裁 SEO 和内容,G2 经常在他的博客上发布关于新的数字营销理念的博客。 我问他是否可以提供一些关于他使用 TF-IDF 的经验的见解。
我对 TF-IDF 有点矛盾。 谷歌表示它不使用它,即使它使用了,如果没有完整的谷歌语料库(意味着谷歌已索引互联网上的所有内容),我们也无法获得准确的 TF/IDF 值。 不过,我不得不说,过去每当我使用 TF-IDF 工具时,我的内容排名都比没有的要好。 因此,无论这个概念看起来多么不准确或不适用,使用其中一些工具似乎是有价值的。
Kevin Indig,G2 搜索引擎优化和内容副总裁
这似乎类似于 Joe Hall 在他的帖子 TF-IDF 不会帮助您的 SEO 中所写的经验。
这些类型的工具可以帮助优化 SEO 的内容,但不是因为 TF-IDF 。 仅仅因为它们提供了指导和鼓励,以使用更常用的自然语言重写内容。 可以使用其他指标(例如“关键字密度”或仅“总词条数”)来制作这些相同的工具,这些指标可以相互比较。
Joe Hall,Hall Analysis 的 SEO 顾问兼首席分析师

最后的话
但是,TF-IDF 是否能够提供足够的信息来支持您的整个工作流程? 一点也不。
虽然对许多 SEO 来说可能感觉不错,但现实情况是,这个 50 年前的指标在 Google 的搜索算法中发挥的作用非常有限。 不完全是最前沿的吗?
现在,您的页面是否应该全面且高质量? 是的。
通过使用 TF-IDF 对其进行建模? 不。
理想情况下,您正在尝试构建相关主题模型,并且您确实需要相关性作为此计算的一部分。 搜索引擎可能会使用 TF-IDF,但这只是其中一个因素。
它是正确研究和优化内容所需的全部内容的一个组成部分。 因此,如果有人将 TF-IDF 工具作为端到端解决方案出售,那么他们就是在向您出售一个缺乏必要信息来为您的业务做出重大决策的故事。
您不妨相信您的编辑会做出这些业务决策。 或者只是掷骰子。 不管怎样,都是一样的。
对 TF-IDF 仍有疑问? 在这里阅读答案,TF-IDF for SEO FAQs。
你现在应该做什么
当您准备就绪时……我们可以通过以下 3 种方式帮助您更快地发布更好的内容:
- 与 MarketMuse 预约时间 与我们的一位策略师安排现场演示,了解 MarketMuse 如何帮助您的团队实现其内容目标。
- 如果您想了解如何更快地创建更好的内容,请访问我们的博客。 它充满了帮助扩展内容的资源。
- 如果您认识其他喜欢阅读此页面的营销人员,请通过电子邮件、LinkedIn、Twitter 或 Facebook 与他们分享。
