De ce TF-IDF nu vă rezolvă problema de conținut și SEO, dar se simte ca și cum o face

Publicat: 2019-08-16

În această postare ne uităm la provocările utilizării TF-IDF pentru a crea și optimiza conținut web. În timp ce folosirea TF-IDF te poate face să te simți bine, nu rezolvă cu adevărat problema. Pe măsură ce investigăm problemele legate de utilizarea acestuia, veți descoperi că folosirea TF-IDF vă poate duce, de fapt, în rătăcire.

Ce este TF-IDF?

Frecvența termenului de frecvență inversă a documentului ( TF-IDF ) este o măsurătoare utilizată pentru a determina relevanța unui termen dintr-un document. Formula numără frecvența unui termen (TF) dintr-un document dat și aplică un factor de frecvență inversă a documentului (IDF) pentru a diminua ponderea termenilor care apar foarte frecvent, în timp ce crește ponderea celor care apar rar.

Faceți clic pe imagine pentru a vedea infograficul complet.

TF-IDF se bazează pe eforturile lui Hans Peter Luhn (1957) pentru munca sa privind frecvența termenilor și a lui Karen Sparck Jones (1972) pentru munca sa privind frecvența inversă a documentelor. Cititorii pricepuți vor observa că acest lucru precede nașterea World Wide Web cu decenii, ceea ce ridică întrebarea.

Google chiar folosește TF-IDF și este încă relevant?

John Mueller de la Google a sugerat că utilizarea TF-IDF de către motorul de căutare este foarte limitată . În timpul unui hangout, singurul context în care a menționat TF-IDF a fost pentru eliminarea cuvintelor oprite.

Acest lucru nu este surprinzător, având în vedere progresul Knowledge Graph, Hummingbird, Rankbrain și Topical Layer. Google este un algoritm în continuă evoluție, care se antrenează și învață în mod constant ce înseamnă lucrurile și cum să facă față ambiguităților limbajului uman.

Observăm funcții SERP variabile și o mai bună gestionare a rezultatelor care au personalizare. Motorul de căutare își îmbunătățește capacitatea de a face față fracturilor de intenție (interogări de căutare care apelează la mai multe intenții). Dar algoritmul este departe de a fi perfect. După cum vom vedea, acest lucru reprezintă o provocare serioasă pentru cei care folosesc TF-IDF ca mijloc de optimizare a conținutului.

Într-o lume în care AI, rețelele neuronale și învățarea automată sunt norma, TF-IDF este ca o bicicletă pentru copii pe roți de antrenament în comparație cu un Ferrari.

Roger Montti, agent de marketing și vorbitor

De ce se simte atât de bine TF-IDF pentru mulți SEO?

În ciuda utilizării limitate de către Google a acestei tehnologii vechi de jumătate de secol, mulți experți SEO cred că TF-IDF este calea către proeminența motorului de căutare. De ce este asta?

TF-IDF este un concept relativ obscur în cadrul comunității SEO. Pentru că nu le este familiar,   SEO presupun că tehnologia este de ultimă oră. Asta îi oferă o anumită valoare.

Majoritatea SEO nu cunosc istoria TF-IDF. Ei nu-și dau seama de vârsta ei adevărată și nici de scopul său adevărat. Sugestie, nu este pentru optimizarea conținutului.

SEO cred că TF-IDF joacă un rol important în algoritmii de căutare Google. Deoarece Google are brevete și câteva postări care fac referire la TF-IDF, există o presupunere falsă cu privire la rolul pe care îl joacă această tehnologie.

TF-IDF pare sofisticat pentru majoritatea SEO-urilor. Este rar ca SEO să aibă un fundal în știința datelor. În acest context, este ușor să presupunem că complexitatea aparentă a TF-IDF este egală cu eficacitatea.

Cine nu și-ar dori să folosească o tehnologie sofisticată, inovatoare de optimizare a motoarelor de căutare? Mai ales când sună atât de promițător!

Doar că nu este.

Problemele cu TF-IDF

Există o serie de instrumente SEO, gratuite sau ieftine, care pretind să folosească TF-IDF ca metodă de optimizare a conținutului pentru SEO. Toți suferă de următoarele probleme.

TF-IDF este o abordare primitivă

L-am întrebat pe JR Oakes, director principal, Cercetare tehnică SEO la Adapt Partners, părerea lui despre TF-IDF. El oferă o analiză succintă asupra limitelor sale.

TF-IDF este o bună măsură a cât de important este un document, în comparație cu alte documente, pentru un termen explicit. În cazul în care cade plat este că este posibil să aveți un document care este foarte relevant pentru „bebeluș”, conform TF-IDF, totuși ați căutat „sugar”. Deoarece documentul (care a fost cel mai relevant pentru „bebeluș”) folosește acest termen puțin, nu este văzut ca o potrivire relevantă.

Google înțelege că „bebeluș” și „sugar” sunt termeni strâns legați (adesea sinonimi), iar o pagină cu relevanță pentru unul este mai mult decât probabil relevantă pentru celălalt, cu excepția cazului în care există indicii de context în restul interogării care spun contrariul . Acest lucru se bazează pe apariția concomitentă a utilizării pe internet, precum și pe probabilitatea ca ambele să fie utilizate în contexte similare.

Un alt exemplu bun este ortografia greșită. Dacă ai documente despre pantofi „reebok” și cauți „rebok”, cu TF-IDF, mai mult ca sigur vei găsi pagina pe care cineva a scris greșit. Google le va înțelege ca fiind aceleași și va returna rezultate adecvate.

JR Oakes, director senior, cercetare tehnică SEO la Adapt Partners

Aplicațiile TF-IDF se bazează pe rezultatele căutării Google

Este termenul de frecvență inversă a documentului, folosind acele documente așa cum apar în SERP. Aceste aplicații se bazează în mod obișnuit pe primele 10 sau 20 de pagini din SERP, fără a fi mai atent și a investiga de ce aceste pagini au aceste subiecte în ele.

Utilizarea atât de puține documente ca corpus afectează semnificativ calitatea rezultatelor. Ei nu iau în considerare valorile aberante cu conținut de calitate scăzută sau articole de conținut scurt care nu reușesc să ofere valoare pentru modelul respectiv.

Preluarea celor mai bune rezultate de la Google ignoră valorile aberante pentru factorii în afara paginii; paginile care se clasează bine în ciuda conținutului lor. Eroarea implicată este atât de mare încât, chiar și luând în considerare aceste lucruri, îți lipsesc informațiile necesare pentru a lua decizii și, potențial, te pune pe calea greșită.

Folosind economii de timp, cum ar fi procesarea limbajului natural. Trebuie să procesezi tot ce este acolo pe un subiect.

TF-IDF și soluțiile de densitate a cuvintelor cheie aruncă toate astea pe fereastră. Dacă le urmezi sfaturile, ai la fel de probabil să ai succes ca și cum ai arunca zarurile.

Am luat legătura cu Bill Slawski, director de cercetare SEO la Go Fish Digital. Bill a analizat brevetele de căutare Google și a scris despre ele pe blogul său, SEO by the Sea, din 2005.

TF-IDF este menționat într-un număr de brevete Google ca ceva pe care motorul de căutare îl poate folosi ca parte a proceselor din spatele unor lucruri precum generarea de perfecționări a interogărilor. Deoarece Google are acces la corpul său de documente de pe web și la cuvintele folosite în aceste documente în indexul său, acest lucru este foarte rezonabil.

Partea IDF a TF-IDF poate fi utilizată pentru a identifica cât de rare sau cât de comune sunt cuvintele în Corpus pe web de la Google. Din păcate, Google nu distribuie acel corpus.

Când efectuați o interogare, Google spune în câte rezultate apare un termen de interogare, dar această sumă este o estimare a unui procent de documente din corpus web al Google (după cum ne spune unul dintre brevetele Google.) Dar oricine, altul decât Google, folosește TF. -IDF pe un document fără corpus Google nu este capabil să determine cât de comune sau cât de rare sunt cuvintele într-un document care nu folosește de fapt corpus Google.

Există unii producători de instrumente care oferă instrumente TF-IDF. Ei fac lucruri precum să se uite la ce termeni apar pe paginile care se clasează foarte bine pentru anumiți termeni de interogare pe care îi introduci. Rețineți că acestea nu sunt neapărat legate între ele din punct de vedere semantic. Deși am văzut unii care susțin că TF-IDF folosit în acest mod poate identifica cuvinte care sunt legate semantic unul de celălalt.

Bill Slawski, director de cercetare SEO la Go Fish Digital.

TF-IDF analizează paginile care ating diferite obiective și le îmbină împreună

Bazându-te pe paginile de sus „N” din SERP creează alte probleme. Este posibil să utilizați pagini prea generale sau prea specifice sau care vizează o altă industrie. Conținutul poate fi scris prost și are o valoare semnificativă în afara paginii, ceea ce îi determină clasarea. Luați, de exemplu, paginile de destinație, paginile de destinație care au fost susținute în SERP-uri prin strategii de construire a link-urilor.

Lista de cuvinte cheie relevante pentru subiect nu este neapărat adecvată pentru afacerea dvs

TF-IDF oferă o listă de cuvinte cheie relevante pentru subiect asociate cu acele elemente de conținut. Dar tot trebuie să determinați relevanța acestor fraze pentru afacerea dvs. Dacă scrieți o postare pe blog care se modelează după o pagină de destinație sau o pagină de conținut de calitate scăzută sau una care nu se conectează cu intenția dvs., nu se va potrivi.

TF-IDF este puternic bazat pe cuvinte cheie

Paginile nu sunt despre cuvinte cheie. O pagină care funcționează bine pentru o mulțime de lucruri, este despre o mulțime de lucruri. Utilizarea TF-IDF dintr-un singur cuvânt cheie pentru a crea sau optimiza o pagină omite multe. Mai exact, toate celelalte rezultate de căutare ale tuturor celorlalte cuvinte cheie sunt diferite. E o mare dor.

Termenii cheie pot apărea cumulativ, derivate și sinonime și alte concepte de relație. Genul acesta de dezmințire folosind cuvinte cheie. Aceasta este părtinirea care este creată prin utilizarea numai a paginilor sau a cuvintelor cheie de top „N”.

În cele din urmă, nu poți ști niciodată cu adevărat dacă vreuna dintre aceste pagini este scrisă cu experiență într-un mod cuprinzător. Fiecare dintre acele pagini se clasează și pentru „N” alte subiecte, ceea ce are ca rezultat un grup de pagini pe care trebuie să le evaluați . Pe baza acestor pagini și despre ce este vorba, poate continua să se ramifică.

O concentrare a cuvintelor cheie poate duce la lucruri precum limbaj cu adevărat nenatural; genul de conținut de proastă calitate în care forțează cuvintele cheie în conținut cu orice preț. Alternativ, conținutul poate fi bun, dar nu are nicio legătură cu nimic de pe site-ul dvs.

Andy Crestodina, co-fondator / Chief Marketing Officer al Orbit Media Studios spune așa.

„Frumos articol, dar TF-IDF ar fi putut fi puțin mai bun...” Când voi primi acel comentariu de la un cititor, voi începe să îmi fac griji pentru lucruri precum frecvența inversă a documentelor.

Da, alegeți o expresie cheie principală la îndemână. Da, utilizați acea expresie în titlu, antet și text. Da, lucrează în acele fraze și subteme legate semantic. Da, răspunde la întrebările relevante „oamenii întreabă și ei”. Dar nu, nu calcula TF-IDF. Pentru că e doar o prostie.

În schimb, scrie ceva original, ceva neașteptat de util. Îngrijorați-vă mai mult pentru a vă încânta cititorul. Faceți acest lucru și veți trimite toate semnalele de căutare potrivite. Veți câștiga linkuri, timp de ședere, căutări din gură în gură și de mărci. Uită de matematică și fă ceva minunat. Cititorii dumneavoastră speră că veți accepta acest sfat.

Andy Crestodina, Co-fondator / Chief Marketing Officer al Orbit Media Studios

Utilizarea TF-IDF pentru a determina importanța este o măsură greșită

Calcularea importanței în funcție de frecvența de utilizare în SERP vs. relevanță este o măsură absolut greșită. Dacă unele intrări din SERP se concentrează pe o intenție, iar celelalte se concentrează pe alta, ponderarea termenului (importanța) poate fi punctată la 50%. Cu toate acestea, dacă toată lumea folosește un fel de cuvânt comun, acesta va fi considerat mai important.

Deci, încerci să apelezi la acea intenție. Dar modelul vă va descuraja să urmați această cale, deoarece doar cinci dintre rezultate folosesc termenul. Modelul va spune că este doar cinci din 10.

TF-IDF se luptă cu fractura intenționată.

Cu alte cuvinte, dacă aveți conținut de înaltă calitate, concentrat pe o intenție diferită, veți fi dus în rătăcire. Dacă aveți conținut de calitate scăzută care are factori mari în afara paginii, asta vă va conduce pe calea greșită. Dacă ai intenții mixte, asta te va duce în afara cursului. Așa că folosirea asta ca măsurătoare este doar un gunoi.

Aplicațiile TF-IDF se concentrează numai la nivel de pagină

Restricționându-se la nivel de pagină, aplicațiile TF-IDF nu pot conecta punctele dintre restul conținutului de pe site-ul dvs. O pagină dintr-un subiect de obicei nu o va tăia. Pentru a face bine, aveți nevoie de alt conținut care să vă alimenteze autoritatea și să funcționeze împreună prin interconectarea adecvată și utilizarea textului de ancorare relevant .

TF-IDF nu poate vedea dincolo de nivelul paginii.

O notă nu oferă o perspectivă

Evaluarea unei pagini pe baza conformității cu TF-IDF pare o idee bună. Dar dacă nu puteți să vă aruncați și să aflați mai multe despre acel site sau pagină, informațiile respective sunt lipsite de sens și nu pot fi acționate.

Pagina cu nota cea mai mare poate:

  • Ai un alt scop decât al tău.
  • Fii mult mai puternic sau mai slab decât al tău.
  • Ai două goluri.
  • Poate să acopere acest subiect, dar să acopere și altceva.

Deci, obiectivul dvs. de a simplifica acest proces de proiect de cercetare cu TF-IDF este de neatins. Ți-a dat această notă, dar mai trebuie să te întorci și să o cercetezi manual pentru a vedea dacă datele TF IDF sunt valide pentru fiecare pagină.

Ce folos în asta?

De ce să folosiți TF-IDF dacă obțineți o notă și acum trebuie să lucrați manual prin pagină? Tehnologia ar trebui să vă permită să efectuați o analiză sofisticată, inclusiv:

  • Analiza explicită a suprapunerii subiectului acelui subiect și a tuturor celorlalte cuvinte pentru care se clasează în comparație cu pagina dvs. și pentru ce se clasează.
  • Structura site-ului competitivă
  • Intenția pe care concurența urmărește să servească.

Aici TF-IDF cade la plat. Nu oferă nicio valoare de scurtătură pe care să vă puteți baza.

A nu fi capabil să sape în utilizarea tehnologiei este o metodologie greșită. Pentru că mai trebuie să faci acel nivel suplimentar de cercetare pentru a obține acea analiză directă a ceea ce înseamnă abordarea unei intenții versus abordarea alta.

Cum se încadrează TF-IDF într-un flux de lucru

Instrumentele care folosesc TF-IDF generează obiceiuri proaste pentru scriitori și SEO. Ei încearcă să țese cuvinte care nu se potrivesc în mod natural sau pot adăuga secțiuni care nu se asociază bine cu narațiunea.

Aceste aplicații ignoră relația dintre cercetător și scriitor. Înmânarea unei liste de cuvinte care ar putea să nu se conecteze cu viziunea scriitorului va crea conflicte. Ei pot fi inspirați de unele dintre aceste cuvinte, dar nu este soluția de activare a fluxului de lucru care pretinde a fi.

Ce se întâmplă dacă oferiți o listă de cuvinte cheie folosind această metodologie? Unii dintre ei sunt pe un subiect, iar alții pe o altă intenție. Persoana care primește nu va ști ce să facă cu asta. Pur și simplu nu arată că nu arată bine.

Adevărații strategi de conținut știu că trebuie să evalueze. Ei trebuie să facă munca pentru a înțelege ce înseamnă a fi un expert în domeniu, pentru a înțelege intenția utilizatorului.

Ar trebui să încerc să fiu exact ca pagina care primește o notă grozavă? Pentru că dacă fac asta, probabilitatea de succes este la fel de aleatorie ca orice altă metodologie de cercetare. Sincer, dacă trebuie să fac toată cercetarea manuală pe care o am asupra acestei valori, ce valoare oferă cu adevărat? Nu mă pot baza pe ea.

Combinarea TF-IDF cu alte puncte de date

Utilizarea datelor TF-IDF cu alte puncte de date greșite duce la concluzii false. Iată câteva pe care le vedem folosite în legătură cu TF-IDF.

Volumul de căutare

Poate vă bazați pe volumul de căutare pentru a determina despre ce să scrieți. În loc să evaluezi adevăratul potențial pe care îl va aduce probabil o pagină care atinge clasamentele de top pentru acest subiect, îl amesteci cu acest tip de analiză competitivă.

Să presupunem că un cuvânt cheie pe care îl vizați are 8.100 de căutări lunare. Dar concurentul împotriva căruia modelați are conținut care se clasează pentru zeci, sute sau mii de cuvinte cu acele pagini și rețeaua lor web de pagini în care există.

Fiecare dintre ei ar putea primi 10.000 de vizite lunare, în timp ce a ta ar putea primi doar 1.000. Deci, utilizați volumul de căutare pentru a calcula potențialul într-un mod greșit. Faceți o analiză competitivă prin evaluarea conținutului fără să vă scufundați și să faceți cercetări. Combină aceste două lucruri într-o manieră greșită, iar îndrumarea pe care o oferă utilizarea acestor două valori este la fel de probabil să ofere succes, pe cât este de a duce la eșec.

Caracteristici SERP

Folosirea caracteristicilor SERP și a analizei tipului de pagină ca parte a îndrumării pentru a determina tipul de pagină de care aveți nevoie nu se referă la adevărata intenție a interogării.

Ce caracteristici SERP există? Am ocazia de a reuși?

Dar daca tu:

  • N-am scris niciodată nimic despre asta.
  • Nu aveți nicio autoritate în afara paginii.
  • Nu aveți o colecție de conținut sau o bază sau un grup de conținut.

Apoi, utilizarea funcțiilor SERP cu volum de căutare și conținut competitiv adaugă haos și dezordine șanselor pe care le am de a performa. Sunt date complet inutile.

Concurența AdWords și CPC AdWords

Concurența AdWords și CPC AdWords sunt valori care sunt strict utilizate cu marketingul în motoarele de căutare (anunțuri plătite). Nici o metrică nu se corelează cu dificultatea. Nici nu reprezintă nicio relație cu cât de ușor sau greu vă va fi să vă clasați în rezultatele căutării organice.

Valoarea TF-IDF

Există vreo funcție de răscumpărare a TF-IDF?

  • Ar putea servi pentru a vă inspira sau dezvălui un subiect pe care poate nu l-ați luat în considerare.
  • Vă poate ajuta să determinați dacă optimizarea dvs. pe pagină nu este în concordanță cu ceea ce este natural.
  • Ar putea chiar ajuta la găsirea concurenților pentru care trebuie să efectuați cercetări suplimentare detaliate.

Kevin Indig, VP SEO și conținut, G2 scrie în mod obișnuit pe blogul său despre concepte proaspete de idei de marketing digital. L-am întrebat dacă poate oferi o perspectivă asupra experienței sale cu TF-IDF.

Sunt puțin ambivalent în ceea ce privește TF-IDF. Google a spus că nu îl folosește și chiar dacă a făcut-o, fără întregul corpus Google (adică tot conținutul de pe internet pe care Google l-a indexat), nu putem obține valoarea exactă TF/IDF. Trebuie să spun, totuși, că ori de câte ori am folosit instrumente TF-IDF în trecut, conținutul meu s-a clasat mai bine decât fără. Deci, oricât de inexact sau inaplicabil pare să fie conceptul, pare să existe valoare în utilizarea unora dintre aceste instrumente.

Kevin Indig, VP SEO și conținut, G2

Aceasta pare să fie similară cu experiența despre care a scris Joe Hall în postarea sa TF-IDF nu vă va ajuta SEO.

Aceste tipuri de instrumente pot ajuta la optimizarea conținutului pentru SEO, dar nu datorită TF-IDF . Pur și simplu pentru că oferă îndrumări și încurajare pentru a rescrie conținutul cu un limbaj mai natural, care este folosit în mod obișnuit. Aceleași instrumente pot fi realizate folosind alte valori precum „densitatea cuvintelor cheie” sau doar „numărul total de termeni”, care pot fi comparate unele cu altele.

Joe Hall, consultant SEO și analist principal la Hall Analysis

Ultimele Cuvinte

Dar, este TF-IDF ceva care oferă suficiente informații pentru a vă sprijini întregul flux de lucru? Deloc.

Deși se poate simți bine pentru mulți SEO, realitatea este că această măsură veche de 50 de ani joacă un rol foarte limitat în algoritmii de căutare Google. Nu tocmai de ultimă oră, nu-i așa?

Acum, ar trebui paginile tale să fie cuprinzătoare și de înaltă calitate? Da.

Modelându-l folosind TF-IDF? Nu.

În mod ideal, încercați să construiți un model de subiect relevant și aveți nevoie de relevanță ca parte a acestui calcul. Motoarele de căutare pot folosi TF-IDF, dar este doar un factor.

Este o componentă a întregii imagini a ceea ce este necesar pentru o cercetare adecvată și optimizarea conținutului. Așadar, dacă cineva vinde un instrument TF-IDF ca soluție end-to-end, îți vinde o poveste care nu are informațiile necesare pentru a lua decizii excelente pentru afacerea ta.

Ai putea la fel de bine să ai încredere în editorul tău pentru a lua acele decizii de afaceri. Sau doar arunca zarurile. Oricum, e la fel.

Mai aveți întrebări despre TF-IDF? Citiți răspunsurile aici, Întrebări frecvente despre TF-IDF pentru SEO.

Ce ar trebui să faci acum

Când sunteți gata... iată 3 moduri prin care vă putem ajuta să publicați conținut mai bun, mai rapid:

  1. Rezervați timp cu MarketMuse Programați o demonstrație live cu unul dintre strategii noștri pentru a vedea cum MarketMuse vă poate ajuta echipa să-și atingă obiectivele de conținut.
  2. Dacă doriți să aflați cum să creați mai rapid conținut mai bun, vizitați blogul nostru. Este plin de resurse pentru a ajuta la scalarea conținutului.
  3. Dacă cunoașteți un alt agent de marketing căruia i-ar plăcea să citească această pagină, distribuiți-o prin e-mail, LinkedIn, Twitter sau Facebook.