Robots.txt: Cele mai bune practici pentru SEO

Publicat: 2022-04-28

Când vine vorba de maximizarea traficului pe site-ul online, cu toții dorim să facem acest lucru verificând clasamentul nostru în căutare și cum s-ar putea îmbunătăți. Desigur, numele jocului este optimizarea pentru motoarele de căutare, iar regulile jocului, ei bine, nu sunt întotdeauna ușor de bifat.

Există o mulțime de lucruri simple, din punct de vedere al conținutului și al cuvintelor cheie, care pot fi făcute pentru a oferi anumitor site-uri avantaje și un avantaj competitiv. Dar cum rămâne cu fundamentul tuturor? Acesta poate fi găsit în fișierul robots.txt al site-ului dvs. web.

Motoarele de căutare au crawler-uri web care, în esență, accesează site-uri web, se uită la conținutul disponibil și îl organizează pentru a oferi unui căutător cea mai bună formă de informații disponibile. Pentru a accesa cu crawlere și a procesa conținutul de pe site în mod corespunzător, robotul motorului de căutare are nevoie de instrucțiuni sub forma paginii robots.txt de pe site-ul dvs.

Crearea unui fișier robots.txt și utilizarea lui eficientă pentru a optimiza o pagină web în scopul motorului de căutare poate fi un proces confuz. Există anumite particularități de reținut care pot face sau distruge cât de accesibil este un site web pentru roboții motoarelor de căutare.

De la respectarea formatului și sintaxa adecvate până la plasarea fișierului robots.txt în locația corectă a site-ului, este esențial să urmați câteva reguli de bază și cele mai bune practici Robots txt pentru a gestiona traficul către site-ul dvs. web.

Fișierele Robots.txt: Ce sunt și de ce doriți unul

Să ne aprofundăm puțin ce este un fișier robots.txt și cum funcționează în domeniul SEO. Iată ce trebuie să știți despre cele mai bune practici Robots txt.

Un fișier robots.txt este un fișier text simplu creat în standardul de excludere a roboților sau RES. RES este un protocol pentru limba pe care crawlerele web o pot citi. Deoarece există mai multe crawler-uri web de la diferite motoare de căutare, este important să evitați interpretarea greșită a ceea ce trebuie accesat. RES vă permite să precizați ce crawler-uri web să blocați de la ce, fiind, de asemenea, destul de flexibil, permițându-vă să securizați un întreg site sau doar părți din acesta, dacă este necesar.

Majoritatea crawlerelor web vor scana fișierul robots.txt pentru a determina ce conținut ar trebui să poată solicita de pe site-ul dvs. web. Rețineți că crawlerele web cu intenții rău intenționate pot alege să ignore instrucțiunile sau chiar să le folosească ca ghid pentru a găsi punctele slabe ale site-ului sau informații de contact pentru spam. Dacă nu există niciun fișier robots.txt de găsit, atunci un crawler va lua în considerare un site deschis la orice solicitare pentru orice adresă URL sau fișier media.

Fișierul robot.txt al unui site este, de asemenea, întotdeauna disponibil pentru vizualizarea oricui. Aceasta înseamnă că nu ar trebui să fie folosit pentru a ascunde informații private sau informații care ar putea fi compromise. Căutați metode alternative pentru a ascunde pagini întregi de informații din rezultatele căutării, cum ar fi o directivă noindex.

Luați în considerare ce s-ar întâmpla dacă nu ați avea un fișier robots.txt atașat site-ului dvs. Puteți primi mai multe solicitări de la crawlerele terțe care vă încetinesc site-ul sau serverul. Supraîncărcarea unui server sau cauzarea erorilor de server va afecta doar accesibilitatea dvs. pentru public.

Deși unele crawler-uri terțe au încă opțiunea de a ignora blocurile, ar merita să creați fișierul robots.txt pentru a împiedica majoritatea celorlalte accesări nedorite și pentru a le împiedica să vă cerceteze conținutul.

Crearea unui fișier Robots.txt

Pentru a începe să creați un fișier robots.txt, puteți utiliza un editor de text simplu (nu un procesor de text) pentru a crea fișierul și a-l încărca în directorul principal rădăcină pentru site-ul dvs. web. Asigurați-vă că se află la rădăcina numelui site-ului dvs. Toți crawlerele web caută „/robots.txt” imediat după adresa URL de bază.

Un set de reguli este ceea ce alcătuiește un fișier robot.txt. Primul dintre parametrii care trebuie incluși în fiecare regulă este un agent de utilizator, care este numele crawler-ului web pe care îl instruiți.

Un exemplu în acest sens este Googlebot, dar există atât de multe crawler-uri web încât este important să specificați pe cine doriți să blocați sau să permiteți din anumite zone. Un asterisc (*) în locul numelui unui agent de utilizator înseamnă că TOȚI roboții ar trebui să urmeze regula, dacă aleg să o urmeze.

Al doilea parametru este unul dintre cuvintele cheie ale instrucțiunilor: permit sau nu. Acesta ar trebui să fie urmat de numele folderului sau numele căii fișierului pe care doriți să permiteți sau să interziceți accesul crawlerului.

Acest lucru vă permite să specificați ce părți ale site-ului dvs. doriți să nu fie indexate pentru rezultatele căutării și vă împiedică să obțineți accesări în întregul set. Clarificarea acestui lucru este deosebit de utilă dacă nu fiecare fișier te-ar ajuta în căutarea SEO.

O altă parte cheie comună a fișierului robots.txt este adăugarea linkului la harta site-ului dvs. XML. Atașarea acestuia este astfel încât crawlerele web să vă poată evalua cu ușurință conținutul și să indexeze orice conținut pe care îl permiteți, astfel încât informațiile, videoclipurile și imaginile mai valoroase să poată apărea.

Acestea sunt doar elementele de bază ale creării unui fișier robots.txt funcțional pentru site-ul dvs. Pe baza acestui lucru, ar trebui să puteți crea reguli pe care crawlerele web le pot naviga pentru a produce rezultate semnificative de căutare care să vă mărească traficul pe site. Acest lucru va necesita, de asemenea, un efort pentru a vă analiza site-ul web pentru a alege ce informații sau media vor determina publicul să dorească să vadă mai mult din conținutul pe care îl oferiți.

Cele mai bune practici pentru fișierele Robots.txt

Această prezentare generală a fișierelor robots.txt vă va ajuta să vă creați propriul fișier site și puteți urma cele mai bune practici de mai jos pentru a vă optimiza complet site-ul pentru crawlerele motoarelor de căutare. Ne asigurăm că adresele URL blocate nu sunt accesibile prin alt site, folosind simboluri pentru a simplifica când există un model, organizând fișierul în mod corespunzător și testând fișierul robots.txt pentru a vedea că face ceea ce doriți să facă.

Testarea fișierului Robots.txt

Este important să testați fișierul robots.txt pentru a vă asigura că nu blocați porțiuni întregi ale site-ului dvs. web să apară în rezultatele căutării. Dacă faceți acest lucru printr-un instrument de testare, vă puteți informa dacă o anumită adresă URL este blocată pentru un anumit robot de căutare web.

Acest lucru poate fi util în special dacă aveți mai multe aspecte pe care încercați să le limitați. Nu ați dori o simplă schimbare a cuvintelor „permite” sau „interzice” pentru a vă scoate complet pagina web, fișierul media sau fișierul de resurse din jocul SEO.

Potrivire de model

Profitați de potrivirea modelelor din fișierele robots.txt pentru a ține cont de variațiile adreselor URL. Potrivirea modelului poate include un asterisc, așa cum sa menționat anterior, pentru a reprezenta toate crawlerele. Acesta poate fi folosit în linia agentului utilizator pentru a interzice o anumită pagină de la toți roboții motoarelor de căutare care citesc fișierul și aleg să-l respecte.

Un alt simbol de potrivire a modelului este semnul dolar ($), care poate fi folosit la sfârșitul unui anumit șir pentru a împiedica accesarea unui crawler la orice adresă URL care se termină cu acea extensie sau tip de fișier.

Plasare, sintaxă și format

De asemenea, să fii atent la plasare, sintaxă și format este esențial pentru o pagină robots.txt care va funcționa pentru tine. Din nou, fișierul ar trebui să fie plasat în rădăcina site-ului web și nu sub o adresă URL de subpagină sau un domeniu diferit, deoarece fiecare adresă URL a site-ului poate avea un singur fișier robots.txt. Crawler-ul web va căuta doar în acea locație rădăcină, astfel încât același fișier plasat în orice altă locație devine irelevant.

Directivele din fișierul robots.txt ar trebui grupate în funcție de agentul utilizator sau crawler-ul căruia i se adresează. Aceste grupuri sunt scanate de sus în jos, ceea ce înseamnă că un crawler web va urma primul set specific de reguli care se potrivesc cu acesta. Țineți cont de acest lucru când definiți specificațiile și identificați crawlerele web pe care le permiteți sau le blocați.

Legătura exterioară

O adresă URL care este inclusă într-un fișier robots.txt poate fi uneori indexată, în ciuda faptului că există o directivă de a o interzice de la un anume sau mai multe crawler-uri. Cum poate fi aceasta? Atunci când o pagină externă include un link către o pagină pe care ați dori să fiți blocată, un crawler web va putea în continuare să vadă acele informații atunci când scanează și indexează conținut. Acesta este un alt exemplu în care ar fi utilă investigarea unor opțiuni suplimentare pentru a proteja anumite pagini web.

Utilizarea unui fișier robots.txt pentru site-ul dvs. web este în avantajul dvs. atunci când vine vorba de direcționarea link-urilor site-urilor pe care doriți să le promovați pentru promovarea motorului de căutare și de a ține la distanță solicitările excesive de crawler pentru motoarele de căutare.

Este o parte fundamentală pe care nu doriți să o lăsați să scape prin crăpăturile pregătirilor dvs. SEO, mai ales când vine vorba de cele mai bune practici Robots txt. Ținând cont de aceste instrucțiuni și recomandări, vă va ajuta să construiți o pagină robots.txt care nu va împiedica performanța site-ului dvs. în paginile cu rezultate ale motorului de căutare și vă va îmbunătăți viteza și accesibilitatea site-ului.