TF-IDFがコンテンツとSEOの問題を解決しないのに、解決したように感じる理由
公開: 2019-08-16この投稿では、TF-IDFを使用してWebコンテンツを作成および最適化する際の課題について説明します。 TF-IDFを使用すると気分が良くなるかもしれませんが、実際には問題を解決していません。 その使用法を取り巻く問題を調査すると、TF-IDFを使用すると実際に迷う可能性があることがわかります。
TF-IDFとは何ですか?
用語頻度逆文書頻度( TF-IDF )は、文書内の用語の関連性を判断するために使用されるメトリックです。 この式は、特定のドキュメント内の用語の頻度(TF)をカウントし、逆ドキュメント頻度(IDF)係数を適用して、非常に頻繁に発生する用語の重みを減らし、まれにしか発生しない用語の重みを増やします。

TF-IDFは、ハンス・ピーター・ルーン(1957)の用語頻度に関する研究と、カレン・スペルク・ジョーンズ(1972)の逆文書頻度に関する研究の努力に基づいています。 賢明な読者は、これがワールドワイドウェブの誕生より数十年前からあることに気付くでしょう。
GoogleはTF-IDFを使用していますか?それでも関連性がありますか?
GoogleのJohnMuellerは、検索エンジンでのTF-IDFの使用は非常に限られていることを示唆しています。 ハングアウト中に、彼がTF-IDFについて言及した唯一のコンテキストは、ストップワードの削除でした。
ナレッジグラフ、ハミングバード、ランクブレイン、トピックレイヤーの進歩を考えると、これは驚くべきことではありません。 Googleは継続的に進化するアルゴリズムであり、物事の意味と人間の言語の曖昧さに対処する方法について常にトレーニングと学習を行っています。

さまざまなSERP機能と、パーソナライズされた結果のより適切な処理が見られます。 検索エンジンは、インテントフラクチャ(複数のインテントにアピールする検索クエリ)を処理する能力を向上させています。 しかし、アルゴリズムは完璧にはほど遠いです。 これから説明するように、これは、コンテンツを最適化する手段としてTF-IDFを使用している人々にとって深刻な課題となります。
AI、ニューラルネットワーク、機械学習が標準となっている世界では、TF-IDFは、フェラーリと比較して、補助輪を使った子供用自転車のようなものです。
Roger Montti、検索マーケティング担当者および講演者
なぜTF-IDFは多くのSEOにとってとても良いと感じるのですか?
Googleがこの半世紀前のテクノロジーを限定的に使用しているにもかかわらず、多くのSEO専門家は、TF-IDFが検索エンジンの卓越性への道であると信じています。 何故ですか?
TF-IDFは、SEOコミュニティ内では比較的あいまいな概念です。 なじみがないので、 SEOは、テクノロジーが最先端であることを前提としています。 それはそれに一定量のカシェを与えます。
SEOの大多数は、TF-IDFの歴史を認識していません。 彼らはその本当の年齢もその本当の目的も理解していません。 ヒント、それはコンテンツの最適化のためではありません。
SEOは、TF-IDFがGoogleの検索アルゴリズムで大きな役割を果たしていると信じています。 GoogleにはTF-IDFを参照する特許といくつかの投稿があるため、このテクノロジーが果たす役割について誤った仮定があります。
TF-IDFは、ほとんどのSEOにとって洗練されているように見えます。 SEOがデータサイエンスのバックグラウンドを持つことはめったにありません。 このコンテキストでは、TF-IDFの見かけの複雑さが有効性に等しいと簡単に推測できます。
洗練された画期的な検索エンジン最適化テクノロジーを使いたくない人はいますか? 特にそれがとても有望に聞こえるとき!
そうでないことを除いて。
TF-IDFの問題
SEOのコンテンツを最適化する方法としてTF-IDFを使用することを目的とした、無料または安価なSEOツールがいくつかあります。 それらのすべてが次の問題に苦しんでいます。
TF-IDFは原始的なアプローチです
AdaptPartnersのテクニカルSEOリサーチ担当シニアディレクターであるJRオークスにTF-IDFについての意見を聞いた。 彼はその限界について簡潔な分析を提供しています。
TF-IDFは、明示的な用語に対して、他のドキュメントと比較して、ドキュメントがどれほど重要であるかを示す良い尺度です。 TF-IDFによると、「赤ちゃん」との関連性が高いドキュメントがあるかもしれませんが、「幼児」を検索していました。 ドキュメント(「赤ちゃん」に最も関連性があった)はこの用語をまばらに使用しているため、関連性のある一致とは見なされません。
Googleは、「赤ちゃん」と「幼児」は強く関連している(多くの場合同義語)用語であり、一方に関連性のあるページは、クエリの残りの部分にそうでないことを示すコンテキストの手がかりがない限り、もう一方に関連している可能性が高いことを理解しています。 。 これは、インターネット全体での使用の同時発生と、両方が同様のコンテキストで使用される確率に基づいています。
もう1つの良い例は、スペルミスです。 「リーボック」の靴に関するドキュメントがあり、TF-IDFで「リーボック」を検索すると、誰かがつづりを間違えたページが見つかる可能性が高くなります。 Googleはこれらを同じものとして理解し、適切な結果を返します。
Adapt PartnersのテクニカルSEOリサーチ担当シニアディレクター、JRオークス
TF-IDFアプリケーションはGoogle検索結果に依存しています
これは、SERPに表示されるドキュメントを使用したドキュメント頻度の逆数という用語です。 これらのアプリケーションは通常、SERPの上位10ページまたは20ページに盲目的に依存しており、これらのページにこれらのトピックが含まれている理由を詳しく調べたり調査したりすることはありません。
コーパスとして使用するドキュメントが非常に少ないと、結果の品質に大きく影響します。 彼らは、そのモデルに価値を提供できない低品質のコンテンツまたは短いコンテンツのアイテムを持つ外れ値を考慮しません。
Googleから上位の結果を取得すると、ページ外の要因の外れ値が無視されます。 コンテンツにもかかわらずランキングが高いページ。 関係するエラーは非常に高いため、これらのことを考慮しても、意思決定に必要な情報が不足しており、間違った方向に進む可能性があります。
自然言語処理のような時間節約を使用します。 トピックに関するすべてを処理する必要があります。
TF-IDFとキーワード密度のソリューションは、それらすべてを窓の外に投げ出します。 彼らのアドバイスに従えば、サイコロを振ったのと同じくらい成功する可能性があります。
GoFishDigitalのSEOリサーチディレクターであるBillSlawskiに連絡を取りました。 ビルは、2005年以来、Googleの検索特許を分析し、ブログSEO bytheSeaに書いています。
TF-IDFは、多くのGoogle特許で、検索エンジンがクエリの絞り込みの生成などの背後にあるプロセスの一部として使用できるものとして言及されています。 Googleは、Web上のドキュメントのコーパス、およびインデックス内のそれらのドキュメントで使用されている単語にアクセスできるため、非常に合理的です。
TF-IDFのIDF部分を使用して、Web上のGoogleのコーパスで単語がどれほどまれであるかまたは一般的であるかを識別することができます。 残念ながら、Googleはそのコーパスを共有していません。
クエリを実行すると、Googleはクエリ用語が含まれる結果の数を示しますが、その量はGoogleのWebコーパス内のドキュメントの割合の推定値です(Googleの特許の1つが教えてくれます)。ただし、TFを使用しているGoogle以外の人-GoogleのコーパスがないドキュメントのIDFは、実際にGoogleのコーパスを使用していないドキュメントの単語がどれほど一般的またはまれであるかを判断できません。
TF-IDFツールを提供するツールメーカーがいくつかあります。 彼らは、あなたが入力した特定のクエリ用語に対して上位にランク付けされたページにどの用語が表示されるかを調べるようなことをします。 これらは必ずしも意味的に相互に関連しているわけではないことに注意してください。 このように使用されたTF-IDFは、意味的に相互に関連する単語を識別できるという主張をいくつか見ましたが。
Go Fish DigitalのSEOリサーチディレクター、ビル・スラフスキー。
TF-IDFは、さまざまな目標を達成するページを調べ、それを統合します
SERPの上部の「N」ページに依存すると、他の問題が発生します。 一般的すぎる、具体的すぎる、または別の業界を対象としたページを使用している可能性があります。 コンテンツの記述が不十分で、ページ外の価値が高く、ランキングを押し上げている可能性があります。 たとえば、リンク構築戦略によってSERPで支持されているランディングページのランディングページを考えてみましょう。
トピックに関連するキーワードのリストは、必ずしもあなたのビジネスに適切ではありません
TF-IDFは、これらのコンテンツアイテムに関連するトピックに関連するキーワードのリストを提供します。 しかし、あなたはまだあなたのビジネスへのそれらのフレーズの関連性を決定する必要があります。 低品質のランディングページやコンテンツページをモデルにしたブログ投稿、または意図に反するブログ投稿を作成する場合、それは適切ではありません。
TF-IDFはキーワード主導型
ページはキーワードに関するものではありません。 多くのことに対してうまく機能するページは、多くのことについてです。 1つのキーワードからTF-IDFを使用してページを作成または最適化すると、多くのことが省略されます。 具体的には、これらの他のすべてのキーワードの他のすべての検索結果は異なります。 それは大きなミスです。
用語キーワードは、ステミングと同義語、およびその他の関連性の概念で累積的に表示される場合があります。 そのようなものはキーワードを使って暴く。 これは、上位の「N」ページまたはキーワードのみを使用して作成されたバイアスです。
最終的に、これらのページのいずれかが実際に包括的に専門的に書かれているかどうかを本当に知ることはできません。 これらの各ページは、他の「N」トピックにもランク付けされているため、評価する必要のあるページのプールが発生します。 それらのページとその内容に基づいて、分岐を続けることができます。
キーワードに焦点を合わせると、本当に不自然な言葉のようなものにつながる可能性があります。 ゴミのような低品質のコンテンツで、キーワードをコンテンツに強制しているようなものです。 あるいは、コンテンツは良いかもしれませんが、それはあなたのサイトの何にも関係がありません。
Orbit MediaStudiosの共同創設者/最高マーケティング責任者であるAndyCrestodinaは、このように述べています。
「いい記事ですが、TF-IDFの方が少し良かったかもしれません…」読者からそのコメントをもらうと、逆のドキュメント頻度などについて心配し始めます。
Orbit Media Studiosの共同創設者/最高マーケティング責任者、Andy Crestodina
はい、手の届く範囲にある主要なキーフレーズを選択してください。 はい、タイトル、ヘッダー、本文にそのフレーズを使用してください。 はい、それらの意味的に関連するフレーズとサブトピックで作業します。 はい、関連する「人々も尋ねる」質問に答えてください。 しかし、いいえ、TF-IDFを計算しないでください。 それはばかげているからです。
代わりに、オリジナルの何か、予想外に役立つ何かを書いてください。 あなたの読者を喜ばせることについてもっと心配してください。 これを行うと、すべての適切な検索信号が送信されます。 リンク、滞在時間、口コミ、ブランド検索に勝ちます。 数学を忘れて、素晴らしいことをしてください。 あなたは読者があなたがこのアドバイスを受けることを望んでいます。
TF-IDFを使用して重要性を判断することは欠陥のある指標です
SERPでの使用頻度と関連性によって重要度を計算することは、完全に欠陥のある指標です。 SERPの一部のエントリが1つのインテントに焦点を合わせ、他のエントリが別のインテントに焦点を合わせている場合、用語の重み付け(重要度)は50%でスコア付けされる可能性があります。 ただし、誰もが何らかの一般的な単語を使用する場合、それはより重要であると判断されます。

だから、あなたはその一つの意図に訴えようとしています。 しかし、結果の5つだけがこの用語を使用しているため、モデルはそのパスを追求することを思いとどまらせます。 モデルはそれが10のうち5つだけだと言うつもりです。

言い換えれば、あなたが別の意図に焦点を合わせた高品質のコンテンツを持っているなら、あなたは道に迷うでしょう。 オフページファクターが高い低品質のコンテンツがある場合、それは間違った道にあなたを導くでしょう。 あなたが混合した意図を持っているなら、それはあなたをコースから外すでしょう。 したがって、それをメトリックとして使用することは単なるゴミです。
TF-IDFアプリケーションはページレベルにのみ焦点を当てています
ページレベルに制限することにより、TF-IDFアプリケーションは、サイト上の残りのコンテンツ間のドットを接続できません。 トピックの1ページは、通常、それをカットしません。 うまくいくためには、あなたの権威を刺激し、適切な相互リンクと関連するアンカーテキストの使用を通して一緒に働く他のコンテンツが必要です。

グレードは洞察を提供しません
TF-IDFへの準拠に基づいてページをグレーディングすることは良い考えのようです。 しかし、そのサイトやページについて詳しく知ることができない場合、その情報は無意味であり、実用的ではありません。
最高の成績のページは次のようになります。
- あなたとは異なる目標を持ってください。
- あなたよりもはるかに強くまたは弱くなります。
- 2つの目標があります。
- このトピックをカバーするかもしれませんが、他の何かもカバーするかもしれません。
したがって、TF-IDFを使用してこの研究プロジェクトプロセスを簡素化するというあなたの目標は達成できません。 このグレードが与えられましたが、それでも戻って手動で調査し、TFIDFデータが各ページで有効かどうかを確認する必要があります。
その中での用途は何ですか?
成績を取得しても、ページを手動で処理する必要がある場合に、なぜTF-IDFを使用するのですか? このテクノロジーにより、次のような高度な分析を実行できるようになります。
- そのトピックと、ページに対してランク付けされている他のすべての単語とそのランク付けの明示的なトピック重複分析。
- 競争力のあるサイト構造
- 競争相手が奉仕しようとしている意図。
これはTF-IDFが横ばいになるところです。 信頼できるショートカット値はありません。
テクノロジーを使用して掘り下げることができないことは、欠陥のある方法論です。 あるインテントにアプローチすることと別のインテントにアプローチすることの意味を直接分析するには、さらに調査を行う必要があるためです。
TF-IDFがワークフローにどのように適合するか
TF-IDFを採用するツールは、ライターやSEOの悪い習慣を助長します。 彼らは自然に合わない言葉を織り込もうとしたり、物語とうまく関連しないセクションを追加したりするかもしれません。
これらのアプリケーションは、研究者とライターの関係を無視します。 作家のビジョンとは関係がないかもしれない単語のリストを渡すことは、対立を生み出すでしょう。 それらはそれらの言葉のいくつかに触発されているかもしれませんが、それがふりをしているのはワークフロー実現ソリューションではありません。
この方法論を使用してキーワードのリストを提供するとどうなりますか? それらのいくつかは1つのトピックにあり、いくつかは別の意図にあります。 受信者はこれをどうするかわからないでしょう。 見た目が悪いだけではありません。
真のコンテンツストラテジストは、評価する必要があることを知っています。 彼らは、対象分野の専門家であることが何を意味するのかを理解し、ユーザーの意図を理解するために作業を行う必要があります。
成績の良いページのようになりたいですか? 私がそうすると、成功の可能性は他の研究方法と同じくらいランダムだからです。 率直に言って、私が持っているこのメトリックについてすべての手動調査を行う必要がある場合、それは本当にどのような価値を提供しますか? 頼りになりません。
TF-IDFを他のデータポイントと組み合わせる
TF-IDFデータを他の欠陥のあるデータポイントと一緒に使用すると、誤った結論につながります。 TF-IDFに関連して使用されているものを次に示します。
検索ボリューム
たぶん、あなたは何について書くべきかを決定するために検索ボリュームに依存しています。 このトピックのトップランキングを達成するページがもたらす可能性が高い真の可能性を評価する代わりに、このタイプの競合分析と混合します。
ターゲットにしているキーワードの月間検索数が8,100であるとします。 しかし、あなたがモデル化している競合他社は、それらのページとそれらが存在するページのWebネットワークで、数十、数百、または数千の単語にランク付けされるコンテンツを持っています。
それらのそれぞれが月に10,000回の訪問を受ける可能性がありますが、あなたの訪問は1,000回しか得られない可能性があります。 したがって、検索ボリュームを使用して、欠陥のある方法でポテンシャルを計算しています。 あなたは、調査を行わずにコンテンツを評価することで、競争力のある分析を行っています。 これら2つのことを欠陥のある方法で組み合わせると、これら2つのメトリックを使用することで得られるガイダンスは、失敗をもたらすのと同じくらい成功をもたらす可能性があります。
SERP機能
ガイダンスの一部としてSERP機能とページタイプ分析を使用して必要なページのタイプを決定することは、クエリの真の意図を物語っていません。
どのようなSERP機能がありますか? 成功する機会はありますか?
しかし、もしあなたが:
- これについては何も書いたことがありません。
- オフページ権限はありません。
- コンテンツのコレクション、コンテンツの基盤またはクラスターはありません。
次に、検索ボリュームと競争力のあるコンテンツでSERP機能を使用すると、私が実行する可能性に混乱と混乱が加わります。 それは完全に役に立たないデータです。
AdWordsコンペティションとAdWordsCPC
AdWordsコンペティションとAdWordsCPCは、検索エンジンマーケティング(有料広告)でのみ使用するための指標です。 どちらの指標も難易度とは相関していません。 また、オーガニック検索結果でランク付けするのがどれほど簡単か難しいかとの関係を表すものでもありません。
TF-IDFの価値
TF-IDFの利用機能はありますか?
- それはあなたに刺激を与えたり、あなたが考えていなかったかもしれないトピックを明らかにするのに役立つかもしれません。
- これは、ページ上の最適化が自然なものと一致していないかどうかを判断するのに役立つ場合があります。
- それはあなたが追加の詳細な調査を行う必要がある競争相手を見つけるのを助けるかもしれません。
G2のSEOおよびコンテンツ担当副社長であるKevinIndigは、彼のブログで新鮮なデジタルマーケティングのアイデアの概念について定期的にブログを書いています。 私は彼がTF-IDFでの彼の経験にいくらかの洞察を提供できるかどうか尋ねました。
私はTF-IDFについて少し曖昧です。 グーグルはそれを使用しないと言った、そしてそれが使用されたとしても、完全なグーグルコーパス(グーグルがインデックスを付けたインターネット上のすべてのコンテンツを意味する)なしでは、正確なTF/IDF値を得ることができない。 ただし、過去にTF-IDFツールを使用したことがある場合は常に、コンテンツのランクが高くなっています。 したがって、概念がどれほど不正確または適用できないように見えても、これらのツールのいくつかを使用することには価値があるようです。
Kevin Indig、VP SEOおよびコンテンツ、G2
これは、JoeHallが彼の投稿TF-IDFWill Not HelpYourSEOで書いた経験に似ているようです。
これらのタイプのツールは、SEOのコンテンツを最適化するのに役立ちますが、TF-IDFのためではありません。 一般的に使用されているより自然な言語でコンテンツを書き直すためのガイダンスと励ましを提供するという理由だけで。 これらの同じツールは、「キーワード密度」や「合計用語数」など、相互に比較できる他のメトリックを使用して作成できます。
ジョーホール、SEOコンサルタント兼ホール分析のプリンシパルアナリスト

最後の言葉
しかし、TF-IDFは、ワークフロー全体をサポートするのに十分な情報を提供するものですか? 全くない。
多くのSEOにとっては良いと感じるかもしれませんが、実際には、この50年前の指標はGoogleの検索アルゴリズムで非常に限られた役割しか果たしていません。 正確には最先端ではありませんか?
さて、あなたのページは包括的で高品質でなければなりませんか? はい。
TF-IDFを使用してモデル化することによって? いいえ。
あなたは理想的には関連するトピックモデルを構築しようとしており、この計算の一部として関連性が必要です。 検索エンジンはTF-IDFを使用する場合がありますが、それは1つの要因にすぎません。
これは、適切な調査とコンテンツの最適化に必要なものの全体像の1つの要素です。 したがって、誰かがTF-IDFツールをエンドツーエンドのソリューションとして販売している場合、彼らはあなたのビジネスに素晴らしい決定を下すために必要な情報が不足しているストーリーをあなたに販売しています。
あなたはそれらのビジネス上の決定をするためにあなたの編集者を信頼したほうがよいでしょう。 または、サイコロを振るだけです。 いずれにせよ、それは同じです。
TF-IDFについてまだ質問がありますか? ここで答えを読んでください、SEOFAQのためのTF-IDF。
あなたが今すべきこと
準備ができたら…より良いコンテンツをより速く公開するための3つの方法を次に示します。
- MarketMuseで時間を予約するストラテジストの1人と一緒にライブデモをスケジュールして、MarketMuseがチームのコンテンツ目標の達成にどのように役立つかを確認します。
- より良いコンテンツをより速く作成する方法を学びたい場合は、私たちのブログにアクセスしてください。 コンテンツのスケーリングに役立つリソースが満載です。
- このページを読んで楽しんでいる別のマーケティング担当者を知っている場合は、電子メール、LinkedIn、Twitter、またはFacebookを介して共有してください。
