Dlaczego TF-IDF nie rozwiązuje problemu z treścią i SEO, ale wydaje się, że to robi?
Opublikowany: 2019-08-16W tym poście przyjrzymy się wyzwaniom związanym z używaniem TF-IDF do tworzenia i optymalizacji treści internetowych. Chociaż używanie TF-IDF może sprawić, że poczujesz się dobrze, tak naprawdę nie rozwiązuje problemu. Gdy będziemy badać problemy związane z jego użyciem, odkryjesz, że korzystanie z TF-IDF może w rzeczywistości sprowadzić Cię na manowce.
Co to jest TF-IDF?
Termin częstotliwość odwrotna częstotliwość dokumentu ( TF-IDF ) to metryka używana do określenia trafności terminu w dokumencie. Formuła zlicza częstotliwość występowania terminu (TF) w danym dokumencie i stosuje odwrotny współczynnik częstotliwości dokumentu (IDF), aby zmniejszyć wagę terminów, które występują bardzo często, przy jednoczesnym zwiększeniu wagi tych, które występują rzadko.

TF-IDF opiera się na wysiłkach Hansa Petera Luhna (1957) za jego pracę nad częstotliwością termiczną oraz Karen Sparck Jones (1972) za pracę nad odwrotną częstotliwością dokumentu. Bystrzy czytelnicy zauważą, że wyprzedza to narodziny sieci WWW o dekady, co nasuwa pytanie.
Czy Google nawet używa TF-IDF i czy nadal ma znaczenie?
John Mueller z Google sugerował, że wykorzystanie TF-IDF przez wyszukiwarkę jest bardzo ograniczone . Podczas hangouta jedynym kontekstem, w którym wspomniał o TF-IDF, było usunięcie słów stop.
Nie jest to zaskakujące, biorąc pod uwagę zaawansowanie Grafu wiedzy, Koliber, Rankbrain i warstwy Topical. Google to stale rozwijający się algorytm, który nieustannie trenuje i uczy się, co oznaczają rzeczy i jak radzić sobie z niejednoznacznościami ludzkiego języka.

Widzimy zmienne funkcje SERP i lepszą obsługę wyników, które mają personalizację. Wyszukiwarka poprawia swoją zdolność do radzenia sobie z łamaniem intencji (zapytania wyszukiwania, które odwołują się do wielu intencji). Ale algorytm jest daleki od doskonałości. Jak zobaczymy, stanowi to poważne wyzwanie dla tych, którzy używają TF-IDF do optymalizacji zawartości.
W świecie, w którym sztuczna inteligencja, sieci neuronowe i uczenie maszynowe są normą, TF-IDF jest jak dziecięcy rower na kółkach treningowych w porównaniu do Ferrari.
Roger Montti, marketer w wyszukiwarkach i prelegent
Dlaczego TF-IDF jest tak dobry dla wielu SEO?
Pomimo ograniczonego wykorzystania tej półwiecznej technologii przez Google, wielu ekspertów SEO uważa, że TF-IDF jest drogą do wyeksponowania w wyszukiwarkach. Dlaczego?
TF-IDF to stosunkowo mało znana koncepcja w społeczności SEO. Ponieważ jest im obcy, SEO zakładają , że technologia jest najnowocześniejsza. To daje mu pewną dozę wartości.
Większość SEO nie zna historii TF-IDF. Nie zdają sobie sprawy z jego prawdziwego wieku ani prawdziwego celu. Wskazówka, nie służy do optymalizacji treści.
SEO uważają, że TF-IDF odgrywa dużą rolę w algorytmach wyszukiwania Google. Ponieważ Google ma patenty i kilka postów , które odnoszą się do TF-IDF, istnieje fałszywe założenie dotyczące roli, jaką odgrywa ta technologia.
TF-IDF wydaje się wyrafinowany dla większości SEO. Pozycjonowanie rzadko ma doświadczenie w zakresie analityki danych. W tym kontekście łatwo założyć, że pozorna złożoność TF-IDF równa się skuteczności.
Kto nie chciałby korzystać z wyrafinowanej, przełomowej technologii optymalizacji wyszukiwarek? Zwłaszcza, gdy brzmi to tak obiecująco!
Tyle że tak nie jest.
Problemy z TF-IDF
Istnieje wiele narzędzi SEO, bezpłatnych lub niedrogich, które wykorzystują TF-IDF jako metodę optymalizacji treści pod kątem SEO. Wszyscy cierpią z powodu następujących problemów.
TF-IDF to prymitywne podejście
Zapytałem JR Oakesa, Senior Director, Technical SEO Research w Adapt Partners, o jego opinię na temat TF-IDF. Oferuje zwięzłą analizę jej granic.
TF-IDF jest dobrą miarą tego, jak ważny jest dokument, w porównaniu z innymi dokumentami, dla jednoznacznego terminu. Jeśli chodzi o to, że możesz mieć dokument, który jest bardzo istotny dla „dziecka” według TF-IDF, a mimo to szukałeś „niemowlęcia”. Ponieważ dokument (który był najbardziej odpowiedni dla „dziecko”) rzadko używa tego terminu, nie jest on postrzegany jako odpowiednie dopasowanie.
Google rozumie, że terminy „dziecko” i „niemowlę” są ściśle powiązane (często synonimami), a strona mająca znaczenie dla jednego jest bardziej niż prawdopodobnie istotna dla drugiego, chyba że w pozostałej części zapytania istnieją wskazówki kontekstowe, które mówią inaczej . Opiera się to na współwystępowaniu użycia w Internecie, a także prawdopodobieństwie, że oba są używane w podobnych kontekstach.
Innym dobrym przykładem jest błąd ortograficzny. Jeśli masz dokumenty dotyczące butów „reebok” i wyszukujesz „rebok” za pomocą TF-IDF, najprawdopodobniej znajdziesz stronę, na której ktoś popełnił błąd ortograficzny. Google zrozumie je jako takie same i zwróci odpowiednie wyniki.
JR Oakes, starszy dyrektor ds. technicznych badań SEO w Adapt Partners
Aplikacje TF-IDF polegają na wynikach wyszukiwania Google
Jest to termin częstotliwość odwrotna do częstotliwości dokumentów przy użyciu tych dokumentów, które pojawiają się w SERP. Aplikacje te zazwyczaj na ślepo opierają się na 10 lub 20 najlepszych stronach w SERP, nie będąc bardziej przemyślanym i nie badając, dlaczego te strony zawierają te tematy.
Używanie tak niewielu dokumentów jako korpusu znacząco wpływa na jakość wyników. Nie biorą pod uwagę wartości odstających o niskiej jakości treści lub krótkich elementów treści, które nie zapewniają wartości dla tego modelu.
Biorąc najlepsze wyniki z Google ignoruje wartości odstające dla czynników poza stroną; strony, które mają dobrą pozycję w rankingu pomimo ich zawartości. Popełniony błąd jest tak wysoki, że nawet biorąc pod uwagę te rzeczy, brakuje Ci informacji niezbędnych do podejmowania decyzji i potencjalnie skierować Cię na złą ścieżkę.
Korzystanie z oszczędzających czas, takich jak przetwarzanie języka naturalnego. Musisz przetworzyć wszystko, co jest na dany temat.
TF-IDF i rozwiązania dotyczące gęstości słów kluczowych wyrzucają to wszystko przez okno. Jeśli zastosujesz się do ich rad, odniesiesz sukces tak samo, jakbyś rzucił kostką.
Skontaktowałem się z Billem Sławskim, dyrektorem ds. badań SEO w Go Fish Digital. Bill od 2005 roku analizuje patenty wyszukiwarki Google i pisze o nich na swoim blogu SEO by the Sea.
TF-IDF jest określany w wielu patentach Google jako coś, z czego wyszukiwarka może korzystać w ramach procesów stojących za takimi rzeczami, jak generowanie uściśleń zapytań. Ponieważ Google ma dostęp do swojego zbioru dokumentów w sieci i słów użytych w tych dokumentach w swoim indeksie, jest to bardzo rozsądne.
Część IDF TF-IDF może być wykorzystana do określenia, jak rzadkie lub jak powszechne są słowa w Google Corpus on the Web. Niestety Google nie udostępnia tego korpusu.
Gdy wykonujesz zapytanie, Google podaje, w ilu wynikach pojawia się wyszukiwane hasło, ale ta kwota jest szacunkową wartością procentową dokumentów w korpusie internetowym Google (jak mówi nam jeden z patentów Google). Ale każdy inny niż Google używa TF -IDF w dokumencie bez korpusu Google nie jest w stanie określić, jak często lub jak rzadko występują słowa w dokumencie, który w rzeczywistości nie korzysta z korpusu Google.
Jest kilku producentów narzędzi, którzy dostarczają narzędzia TF-IDF. Robią takie rzeczy, jak sprawdzanie, jakie terminy pojawiają się na stronach, które są wysoko w rankingu dla określonych terminów zapytań, które wprowadzasz. Pamiętaj, że niekoniecznie są one ze sobą powiązane semantycznie. Chociaż widziałem pewne twierdzenia, że TF-IDF używane w ten sposób mogą identyfikować słowa, które są ze sobą semantycznie powiązane.
Bill Sławski, dyrektor ds. badań SEO w Go Fish Digital.
TF-IDF przegląda strony, które osiągają różne cele i łączą się ze sobą
Poleganie na górnych stronach „N” w SERP powoduje inne problemy. Być może korzystasz ze stron, które są zbyt ogólne, zbyt szczegółowe lub skierowane do innej branży. Treść może być źle napisana i mieć znaczną wartość poza stroną, która wpływa na jej ranking. Weźmy na przykład strony docelowe stron docelowych, które zostały podparte w SERP za pomocą strategii budowania linków.
Lista tematycznie istotnych słów kluczowych nie jest koniecznie odpowiednia dla Twojej firmy
TF-IDF udostępnia listę tematycznie odpowiednich słów kluczowych powiązanych z tymi elementami treści. Ale nadal musisz określić, jakie znaczenie mają te frazy dla Twojej firmy. Jeśli napiszesz post na blogu, który będzie wzorował się na niskiej jakości stronie docelowej lub stronie z treścią, albo taki, który nie będzie pasował do Twoich zamiarów, nie będzie pasował.
TF-IDF jest mocno oparty na słowach kluczowych
Strony nie dotyczą słów kluczowych. Strona, która sprawdza się w wielu sprawach, dotyczy wielu rzeczy. Używanie TF-IDF z jednego słowa kluczowego do tworzenia lub optymalizacji strony pozostawia wiele. W szczególności wszystkie inne wyniki wyszukiwania wszystkich pozostałych słów kluczowych są różne. To wielka chybienie.
Słowa kluczowe terminów mogą pojawiać się narastająco, rdzennie i synonimy oraz inne koncepcje pokrewieństwa. Tego rodzaju obalania za pomocą słów kluczowych. To błąd, który powstaje przy użyciu tylko najlepszych stron „N” lub słów kluczowych.
Ostatecznie nigdy nie możesz naprawdę wiedzieć, czy którakolwiek z tych stron jest rzeczywiście fachowo napisana w sposób kompleksowy. Każda z tych stron ma również pozycję „N” innych tematów, co skutkuje pulą stron, które musisz ocenić . W oparciu o te strony i o to, o czym one są, może nadal się rozgałęziać.
Skupienie się na słowach kluczowych może prowadzić do takich rzeczy, jak naprawdę nienaturalny język; rodzaj śmieci o niskiej jakości, w których za wszelką cenę wymuszają słowa kluczowe. Ewentualnie treść może być dobra, ale nie ma połączenia z niczym w Twojej witrynie.
Andy Crestodina, współzałożyciel / dyrektor ds. marketingu w Orbit Media Studios, tak to ujął.
„Niezły artykuł, ale TF-IDF mógłby być trochę lepszy…” Kiedy otrzymam ten komentarz od czytelnika, zacznę się martwić takimi rzeczami, jak odwrócona częstotliwość dokumentów.
Tak, wybierz główną frazę kluczową w zasięgu ręki. Tak, użyj tego wyrażenia w tytule, nagłówku i tekście głównym. Tak, pracuj nad semantycznie powiązanymi frazami i podtematami. Tak, odpowiedz na odpowiednie pytania typu „ludzie też zadają”. Ale nie, nie obliczaj TF-IDF. Bo to po prostu głupie.
Zamiast tego napisz coś oryginalnego, coś nieoczekiwanie przydatnego. Martw się bardziej o zachwycenie czytelnika. Zrób to, a wyślesz wszystkie właściwe sygnały wyszukiwania. Wygrasz linki, czas przebywania, pocztę pantoflową i wyszukiwania marek. Zapomnij o matematyce i zrób coś niesamowitego. Czytelnicy mają nadzieję, że przyjmiecie tę radę.Andy Crestodina, współzałożyciel / dyrektor ds. marketingu Orbit Media Studios
Używanie TF-IDF do określenia ważności jest wadliwym miernikiem
Obliczanie ważności według częstotliwości użycia w SERP w porównaniu z trafnością jest absolutnie błędną miarą. Jeśli niektóre wpisy w SERP skupiają się na jednej intencji, a inne skupiają się na innej, waga terminu (ważność) może zostać oceniona na 50%. Jeśli jednak wszyscy użyją jakiegoś pospolitego słowa, zostanie to ocenione jako ważniejsze.
Więc próbujesz odwołać się do tej jednej intencji. Ale model zniechęci Cię do podążania tą ścieżką, ponieważ tylko pięć wyników używa tego terminu. Model powie, że to tylko pięć na 10.

Innymi słowy, jeśli masz wysokiej jakości treści, skoncentrowane na innym zamiarze, zbłądzisz. Jeśli masz treści o niskiej jakości, które mają wysokie współczynniki poza stroną, sprowadzi cię to na złą ścieżkę. Jeśli masz mieszane intencje, sprowadzi cię to z kursu. Więc używanie tego jako metryki to tylko śmieci.
Aplikacje TF-IDF skupiają się tylko na poziomie strony
Ograniczając się do poziomu strony, aplikacje TF-IDF nie mogą łączyć kropek między resztą zawartości witryny. Jedna strona na temat zwykle nie wystarczy. Aby dobrze sobie radzić, potrzebujesz innych treści, które podsycają Twój autorytet i współpracują ze sobą poprzez odpowiednie powiązania i użycie odpowiedniego tekstu kotwicy .

Ocena nie zapewnia wglądu
Ocena strony na podstawie jej zgodności z TF-IDF wydaje się dobrym pomysłem. Ale jeśli nie możesz zanurkować i dowiedzieć się więcej o tej witrynie lub stronie, te informacje są bez znaczenia i nie można ich podjąć.
Strona z najwyższą oceną może:
- Miej inny cel niż twój.
- Bądź znacznie silniejszy lub słabszy niż twój.
- Miej dwa cele.
- Może dobrze omówić ten temat, ale także omówić coś innego.
Więc twój cel, jakim jest uproszczenie procesu projektu badawczego za pomocą TF-IDF, jest nieosiągalny. Dało ci to tę ocenę, ale nadal musisz wrócić i ręcznie zbadać, czy dane TF IDF są prawidłowe dla każdej strony.
Jaki jest z tego pożytek?
Po co używać TF-IDF, jeśli otrzymasz ocenę, a teraz nadal musisz ręcznie przeglądać stronę? Technologia powinna umożliwiać przeprowadzenie zaawansowanej analizy obejmującej:
- Wyraźna analiza nakładania się tematów na ten temat i wszystkie inne słowa, dla których są one pozycjonowane, w porównaniu do Twojej strony i za co ona się plasuje.
- Konkurencyjna struktura witryny
- Intencja, którą konkurencja chce obsłużyć.
W tym miejscu TF-IDF upada. Nie zapewnia żadnej wartości skrótu, na której można polegać.
Niemożność zagłębienia się w korzystanie z technologii jest wadliwą metodologią. Ponieważ nadal musisz przeprowadzić tę dodatkową warstwę badań, aby uzyskać bezpośrednią analizę tego, co to znaczy zbliżać się do jednego zamiaru w porównaniu do zbliżania się do drugiego.
Jak TF-IDF pasuje do przepływu pracy
Narzędzia wykorzystujące TF-IDF powodują złe nawyki pisarzy i SEO. Próbują tkać słowa, które nie pasują do siebie w naturalny sposób lub mogą dodawać sekcje, które nie pasują do narracji.
Te aplikacje ignorują relację między badaczem a pisarzem. Przekazanie listy słów, które mogą nie łączyć się z wizją pisarza, spowoduje konflikt. Mogą być zainspirowane niektórymi z tych słów, ale nie jest to rozwiązanie umożliwiające przepływ pracy, za które się udaje.
Co się stanie, jeśli dostarczysz listę słów kluczowych za pomocą tej metodologii? Niektóre z nich dotyczą jednego tematu, a niektóre innego celu. Osoba odbierająca nie będzie wiedziała, co z tym zrobić. To po prostu nie tylko nie wygląda dobrze.
Prawdziwi stratedzy treści wiedzą, że muszą to ocenić. Muszą wykonać pracę, aby zrozumieć, co to znaczy być ekspertem w danej dziedzinie, aby zrozumieć intencje użytkownika.
Czy powinienem starać się być jak strona, która otrzymuje świetną ocenę? Bo jeśli to zrobię, prawdopodobieństwo sukcesu jest tak samo przypadkowe, jak każda inna metodologia badawcza. Szczerze mówiąc, jeśli muszę przeprowadzić wszystkie te ręczne badania na temat tej metryki, jaką mam, jaką wartość naprawdę zapewnia? Nie mogę na tym polegać.
Łączenie TF-IDF z innymi punktami danych
Używanie danych TF-IDF z innymi wadliwymi punktami danych prowadzi do fałszywych wniosków. Oto niektóre, które widzimy używane w połączeniu z TF-IDF.
Liczba wyszukiwań
Być może polegasz na liczbie wyszukiwań, aby określić, o czym pisać. Zamiast oceniać prawdziwy potencjał, jaki prawdopodobnie przyniesie strona, która osiągnie najwyższe pozycje w tym temacie, łączysz ją z tego rodzaju analizą konkurencji.
Załóżmy, że słowo kluczowe, na które kierujesz reklamy, ma 8100 wyszukiwań miesięcznie. Ale konkurent, przeciwko któremu się modelujesz, ma treść, która obejmuje dziesiątki, setki lub tysiące słów z tymi stronami i siecią stron internetowych, w których się znajdują.
Każdy z nich może otrzymać 10 000 wizyt miesięcznie, podczas gdy Twoja może mieć tylko 1000. Używasz więc liczby wyszukiwań do obliczenia potencjału w niewłaściwy sposób. Przeprowadzasz analizę konkurencji, oceniając treści bez zagłębiania się i przeprowadzania badań. Połącz te dwie rzeczy w niewłaściwy sposób, a wskazówki, które zapewnia korzystanie z tych dwóch metryk, zapewnią zarówno sukces, jak i porażkę.
Funkcje SERP
Korzystanie z funkcji SERP i analizy typu strony jako części wskazówek w celu określenia typu strony, której potrzebujesz, nie odpowiada prawdziwej intencji zapytania.
Jakie są funkcje SERP? Czy mam szansę odnieść sukces?
Ale jeśli ty:
- Nigdy nic na ten temat nie napisałem.
- Nie miej żadnych uprawnień poza stroną.
- Nie masz kolekcji treści, podstawy ani klastra treści.
Następnie korzystanie z funkcji SERP z liczbą wyszukiwań i konkurencyjnymi treściami po prostu dodaje chaos i nieporządek do szansy na występy. To całkowicie bezużyteczne dane.
Konkurencja AdWords i CPC AdWords
Konkurencja AdWords i CPC AdWords to wskaźniki przeznaczone wyłącznie do marketingu w wyszukiwarkach (reklamy płatne). Żadna metryka nie koreluje z trudnością. Nie reprezentują też żadnego związku z tym, jak łatwo lub trudno będzie Ci zająć pozycję w organicznych wynikach wyszukiwania.
Wartość TF-IDF
Czy jest jakaś funkcja wykupu TF-IDF?
- Może Cię zainspirować lub ujawnić temat, którego być może nie brałeś pod uwagę.
- Może to pomóc w ustaleniu, czy optymalizacja na stronie jest niezgodna z tym, co naturalne.
- Może nawet pomóc w znalezieniu konkurentów, dla których musisz przeprowadzić dodatkowe szczegółowe badania.
Kevin Indig, wiceprezes ds. SEO i treści, G2 rutynowo bloguje na swoim blogu o nowych koncepcjach marketingu cyfrowego. Zapytałem, czy mógłby przedstawić jakiś wgląd w swoje doświadczenia z TF-IDF.
Mam trochę ambiwalentny stosunek do TF-IDF. Google powiedział, że go nie używa, a nawet gdyby tak się stało, bez pełnego korpusu Google (czyli wszystkich treści w Internecie zindeksowanych przez Google), nie możemy uzyskać dokładnej wartości TF/IDF. Muszę jednak powiedzieć, że ilekroć w przeszłości korzystałem z narzędzi TF-IDF, moje treści plasowały się lepiej niż bez nich. Tak więc bez względu na to, jak niedokładna lub niemożliwa do zastosowania wydaje się koncepcja, wydaje się, że korzystanie z niektórych z tych narzędzi ma wartość.
Kevin Indig, wiceprezes ds. SEO i treści, G2
Wydaje się, że jest to podobne do doświadczenia, o którym pisał Joe Hall w swoim poście TF-IDF nie pomoże Twojemu SEO.
Tego typu narzędzia mogą pomóc w optymalizacji treści pod kątem SEO, ale nie z powodu TF-IDF . Po prostu dlatego, że dostarczają wskazówek i zachęty do przepisywania treści przy użyciu bardziej naturalnego języka, który jest powszechnie używany. Te same narzędzia można tworzyć przy użyciu innych wskaźników, takich jak „gęstość słów kluczowych” lub po prostu „całkowita liczba terminów”, które można ze sobą porównywać.
Joe Hall, konsultant SEO i główny analityk w Hall Analysis

Ostatnie słowa
Ale czy TF-IDF jest czymś, co zapewnia wystarczającą ilość informacji do obsługi całego przepływu pracy? Zupełnie nie.
Chociaż dla wielu SEO może to być dobre, w rzeczywistości ta 50-letnia metryka odgrywa bardzo ograniczoną rolę w algorytmach wyszukiwania Google. Nie do końca nowatorskie, prawda?
Czy Twoje strony powinny być obszerne i wysokiej jakości? Tak.
Modelując to za pomocą TF-IDF? Nie.
Idealnie próbujesz zbudować odpowiedni model tematyczny i potrzebujesz trafności w ramach tego obliczenia. Wyszukiwarki mogą używać TF-IDF, ale to tylko jeden czynnik.
To jeden z elementów całego obrazu tego, co jest potrzebne do właściwego badania i optymalizacji treści. Tak więc, jeśli ktoś sprzedaje narzędzie TF-IDF jako kompleksowe rozwiązanie, sprzedaje Ci historię, w której brakuje informacji niezbędnych do podejmowania ważnych decyzji dla Twojej firmy.
Równie dobrze możesz powierzyć swojemu wydawcy podejmowanie tych decyzji biznesowych. Lub po prostu rzuć kostką. Tak czy inaczej, jest tak samo.
Masz jeszcze pytania dotyczące TF-IDF? Przeczytaj odpowiedzi tutaj, TF-IDF dla SEO FAQ.
Co powinieneś teraz zrobić
Kiedy będziesz gotowy… oto 3 sposoby, w jakie możemy pomóc Ci szybciej publikować lepsze treści:
- Zarezerwuj czas z MarketMuse Zaplanuj prezentację na żywo z jednym z naszych strategów, aby zobaczyć, jak MarketMuse może pomóc Twojemu zespołowi osiągnąć cele dotyczące treści.
- Jeśli chcesz dowiedzieć się, jak szybciej tworzyć lepsze treści, odwiedź naszego bloga. Jest pełen zasobów, które pomagają skalować zawartość.
- Jeśli znasz innego marketera, który chciałby przeczytać tę stronę, udostępnij mu ją za pośrednictwem poczty e-mail, LinkedIn, Twittera lub Facebooka.

Andy Crestodina, współzałożyciel / dyrektor ds. marketingu Orbit Media Studios