Cos'è il Crawl Budget e come ottimizzarlo
Pubblicato: 2022-04-28
Un crawl budget può sembrare un concetto estraneo quando impari per la prima volta come funzionano i robot dei motori di ricerca. Sebbene non siano il concetto SEO più semplice, sono meno complicati di quanto possa sembrare. Una volta che inizi a capire cos'è un crawl budget e come funziona la scansione dei motori di ricerca, puoi iniziare a ottimizzare il tuo sito web per ottimizzare la scansione. Questo processo aiuterà il tuo sito a raggiungere il suo massimo potenziale di posizionamento nei risultati di ricerca di Google.
Che cos'è un budget di scansione?

Un crawl budget è il numero di URL di un sito Web che i bot dei motori di ricerca possono indicizzare all'interno di una sessione di indicizzazione. Il "budget" di una sessione di scansione varia da sito Web a sito Web in base alle dimensioni, alle metriche del traffico e alla velocità di caricamento della pagina di ogni singolo sito.
Se sei arrivato così lontano e i termini SEO non ti sono familiari, usa il nostro glossario SEO per acquisire maggiore familiarità con le definizioni .
Quali fattori influenzano il budget di scansione di un sito Web?
Google non dedica la stessa quantità di tempo o numero di scansioni a tutti i siti Web su Internet. I webcrawler determinano anche le pagine di cui eseguire la scansione e la frequenza in base a diversi fattori. Determinano la frequenza e la durata della scansione di ciascun sito in base a:
- Popolarità: più un sito o una pagina vengono visitati, più spesso dovrebbero essere analizzati per gli aggiornamenti. Inoltre, le pagine più popolari accumuleranno più collegamenti in entrata più rapidamente.
- Dimensioni: i siti Web e le pagine di grandi dimensioni con elementi ad alta intensità di dati richiedono più tempo per la scansione.
- Salute/problemi: quando un webcrawler raggiunge un vicolo cieco tramite collegamenti interni, ci vuole tempo prima che trovi un nuovo punto di partenza o abbandona la scansione. Errori 404, reindirizzamenti e tempi di caricamento lenti rallentano e ostacolano i webcrawler.
In che modo il budget di scansione influisce sulla SEO?

Il processo di indicizzazione del webcrawler rende possibile la ricerca. Se i tuoi contenuti non possono essere trovati e poi indicizzati dai webcrawler di Google, le tue pagine web e il tuo sito web non saranno rilevabili dai ricercatori. Ciò porterebbe il tuo sito a perdere molto traffico di ricerca.
Perché Google esegue la scansione dei siti Web?
I Googlebot esaminano sistematicamente le pagine di un sito Web per determinare di cosa trattano la pagina e il sito Web in generale. I webcrawler elaborano, categorizzano e organizzano i dati da quel sito web pagina per pagina al fine di creare una cache di URL insieme al loro contenuto, in modo che Google possa determinare quali risultati di ricerca devono apparire in risposta a una query di ricerca.
Inoltre, Google utilizza queste informazioni per determinare quali risultati di ricerca si adattano meglio alla query di ricerca al fine di determinare la posizione di ciascun risultato di ricerca nell'elenco dei risultati di ricerca gerarchici.
Cosa succede durante una scansione?

Google assegna un determinato periodo di tempo a un Googlebot per elaborare un sito web. A causa di questa limitazione, il bot probabilmente non eseguirà la scansione di un intero sito durante una sessione di scansione. Invece, funzionerà attraverso tutte le pagine del sito in base al file robots.txt e ad altri fattori (come la popolarità di una pagina).
Durante la sessione di scansione, un Googlebot utilizzerà un approccio sistematico per comprendere il contenuto di ogni pagina che elabora.
Ciò include l'indicizzazione di attributi specifici, come:
- Meta tag e utilizzo della NLP per determinarne il significato
- Collegamenti e anchor text
- File multimediali per la ricerca di immagini e video
- Marcatura dello schema
- Marcatura HTML
Il web crawler eseguirà anche un controllo per determinare se il contenuto della pagina è un duplicato di un canonico. In tal caso, Google sposterà l'URL su una scansione a bassa priorità, in modo da non perdere tempo a eseguire la scansione della pagina così spesso.
Cosa sono la frequenza di scansione e la domanda di scansione?
I web crawler di Google assegnano una certa quantità di tempo a ogni scansione che eseguono. Come proprietario di un sito web, non hai alcun controllo su questa quantità di tempo. Tuttavia, puoi modificare la velocità con cui scansionano le singole pagine del tuo sito mentre sono sul tuo sito. Questo numero è chiamato la tua velocità di scansione .
La domanda di scansione indica la frequenza con cui Google esegue la scansione del tuo sito. Questa frequenza si basa sulla domanda del tuo sito da parte degli utenti di Internet e sulla frequenza con cui il contenuto del tuo sito deve essere aggiornato durante la ricerca. Puoi scoprire la frequenza con cui Google esegue la scansione del tuo sito utilizzando un'analisi del file di registro (vedi n. 2 di seguito).
Come posso determinare il budget di scansione del mio sito?

Poiché Google limita il numero di volte in cui esegue la scansione del tuo sito e per quanto tempo, vuoi essere consapevole di qual è il tuo budget di scansione. Tuttavia, Google non fornisce questi dati ai proprietari dei siti, soprattutto se il tuo budget è così ristretto che i nuovi contenuti non raggiungeranno le SERP in modo tempestivo. Questo può essere disastroso per contenuti importanti e nuove pagine come le pagine dei prodotti che potrebbero farti guadagnare.
Per capire se il tuo sito sta affrontando limitazioni del budget di scansione (o per confermare che il tuo sito è A-OK), ti consigliamo di: Ottieni un inventario di quanti URL ci sono sul tuo sito. Se utilizzi Yoast, il tuo totale sarà elencato nella parte superiore dell'URL della tua mappa del sito .

Come puoi ottimizzare per un budget di scansione?
Quando arriva il momento in cui il tuo sito è diventato troppo grande per il suo budget di scansione, dovrai tuffarti nell'ottimizzazione del budget di scansione. Poiché non puoi dire a Google di eseguire la scansione del tuo sito più spesso o per un periodo di tempo più lungo, devi concentrarti su ciò che puoi controllare.
L'ottimizzazione del budget di scansione richiede un approccio multiforme e la comprensione delle best practice di Google . Da dove dovresti iniziare quando si tratta di ottenere il massimo dalla tua velocità di scansione? Questo elenco completo è scritto in ordine gerarchico, quindi inizia dall'alto.
1. Considera l'aumento del limite di velocità di scansione del tuo sito
Google invia richieste contemporaneamente a più pagine del tuo sito. Tuttavia, Google cerca di essere cortese e di non impantanare il tuo server con conseguente rallentamento del tempo di caricamento per i visitatori del tuo sito. Se noti che il tuo sito è in ritardo dal nulla, questo potrebbe essere il problema.
Per combattere l'impatto sull'esperienza dei tuoi utenti, Google ti consente di ridurre la frequenza di scansione. In questo modo si limiterà il numero di pagine che Google può indicizzare contemporaneamente.
È interessante notare, tuttavia, che Google ti consente anche di aumentare il limite della velocità di scansione, con l'effetto che possono estrarre più pagine contemporaneamente, con il risultato che più URL vengono scansionati contemporaneamente. Tuttavia, tutti i rapporti suggeriscono che Google è lento a rispondere a un aumento del limite della velocità di scansione e non garantisce che Google eseguirà la scansione di più siti contemporaneamente.
Come aumentare il limite della velocità di scansione:
- In Search Console, vai su "Impostazioni".
- Da lì, puoi vedere se la tua velocità di scansione è ottimale o meno.
- Quindi puoi aumentare il limite a una velocità di scansione più rapida per 90 giorni.
2. Eseguire un'analisi del file di registro

Un'analisi del file di registro è un rapporto del server che riflette ogni richiesta inviata al server. Questo rapporto ti dirà esattamente cosa fanno i Googlebot sul tuo sito. Sebbene questo processo sia spesso eseguito da SEO tecnici, puoi parlare con l'amministratore del tuo server per ottenerne uno.
Utilizzando l' analisi del file di registro o il file di registro del server, imparerai:
- Con quale frequenza Google esegue la scansione del tuo sito
- Quali pagine vengono scansionate di più
- Quali pagine hanno un codice server che non risponde o manca
Una volta che hai queste informazioni, puoi usarle per eseguire da # 3 a # 7.
3. Mantieni la tua Sitemap XML e Robots.txt aggiornati
Se il tuo file di registro mostra che Google sta impiegando troppo tempo a eseguire la scansione di pagine che non desideri vengano visualizzate nelle SERP, puoi richiedere che i crawler di Google saltino queste pagine. Ciò libera parte del tuo budget di scansione per le pagine più importanti.

La tua mappa del sito (che puoi ottenere da Google Search Console o SearchAtlas ) fornisce a Googlebots un elenco di tutte le pagine del tuo sito che desideri vengano indicizzate da Google in modo che possano apparire nei risultati di ricerca. Mantenere la tua mappa del sito aggiornata con tutte le pagine web che vuoi che i motori di ricerca trovino e omettere quelle che non vuoi che trovino può massimizzare il modo in cui i webcrawler trascorrono il loro tempo sul tuo sito.

Il tuo file robots.txt dice ai crawler dei motori di ricerca quali pagine vuoi e non vuoi che eseguano la scansione. Se hai pagine che non sono buone pagine di destinazione o pagine con gate, dovresti utilizzare il tag noindex per i loro URL nel tuo file robots.txt. Googlebot probabilmente salterà qualsiasi pagina web con il tag noindex.
4. Riduci reindirizzamenti e catene di reindirizzamento

Oltre a liberare il budget di scansione escludendo le pagine non necessarie dalle scansioni dei motori di ricerca, puoi anche massimizzare le scansioni riducendo o eliminando i reindirizzamenti. Questi saranno tutti gli URL che risulteranno in un codice di stato 3xx.
Gli URL reindirizzati impiegano più tempo per essere recuperati da un Googlebot poiché il server deve rispondere con il reindirizzamento quindi recuperare la nuova pagina. Mentre un reindirizzamento richiede solo pochi millisecondi, possono sommarsi. E questo può far sì che la scansione del tuo sito richieda più tempo nel complesso. Questa quantità di tempo viene moltiplicata quando un Googlebot si imbatte in una catena di reindirizzamenti URL.
Per ridurre i reindirizzamenti e le catene di reindirizzamento, sii consapevole della tua strategia di creazione dei contenuti e seleziona attentamente il testo per i tuoi slug.
5. Correggi i collegamenti interrotti

Il modo in cui Google esplora spesso un sito è navigando tramite la struttura interna dei link. Mentre si fa strada attraverso le tue pagine, noterà se un collegamento porta a una pagina inesistente (questo viene spesso definito un errore 404 morbido). Quindi andrà avanti, non volendo perdere tempo a indicizzare detta pagina.
I collegamenti a queste pagine devono essere aggiornati per inviare l'utente o Googlebot a una pagina reale. OPPURE (anche se è difficile da credere) Googlebot potrebbe aver identificato erroneamente una pagina come un errore 4xx o 404 quando la pagina esiste effettivamente. Quando ciò accade, controlla che l'URL non contenga errori di battitura, quindi invia una richiesta di scansione per quell'URL tramite il tuo account Google Search Console.
Per rimanere aggiornato su questi errori di scansione, puoi utilizzare il rapporto Indice > Copertura del tuo account Google Search Console. Oppure usa lo strumento Site Audit di SearchAtlas per trovare il rapporto sugli errori del tuo sito da trasmettere al tuo sviluppatore web.

Nota: i nuovi URL potrebbero non essere visualizzati immediatamente nell'analisi del file di registro. Concedi a Google un po' di tempo per trovarli prima di richiedere una scansione.
6. Lavora sul miglioramento della velocità di caricamento della pagina

I robot dei motori di ricerca possono spostarsi all'interno di un sito a un ritmo rapido. Tuttavia, se la velocità del tuo sito non è all'altezza, può davvero avere un impatto notevole sul tuo budget di scansione. Usa l'analisi del file di registro, SearchAtlas o PageSpeedInsights per determinare se il tempo di caricamento del tuo sito sta influenzando negativamente la visibilità della tua ricerca.
Per migliorare il tempo di risposta del tuo sito, utilizza gli URL dinamici e segui le best practice di Google Core Web Vitals . Ciò può includere l'ottimizzazione dell'immagine per i media above the fold.
Se il problema della velocità del sito è lato server, potresti voler investire in altre risorse del server come:
- Un server dedicato (soprattutto per siti di grandi dimensioni)
- Aggiornamento all'hardware del server più recente
- RAM in aumento
Questi miglioramenti daranno anche una spinta alla tua esperienza utente, che può aiutare il tuo sito a funzionare meglio nella ricerca di Google poiché la velocità del sito è un segnale per PageRank.
7. Non dimenticare di utilizzare i tag canonici
Il contenuto duplicato è disapprovato da Google, almeno quando non riconosci che il contenuto duplicato ha una pagina di origine. Come mai? Googlebot esegue la scansione di ogni pagina a meno che non sia inevitabile, a meno che non venga detto di fare diversamente. Tuttavia, quando incontra una pagina duplicata o una copia di qualcosa che gli è familiare (sulla tua pagina o fuori sede), smetterà di eseguire la scansione di quella pagina. E mentre ciò consente di risparmiare tempo, dovresti risparmiare ancora più tempo al crawler utilizzando un tag canonico che identifica l'URL canonico.

Canonicals dice a Googlebot di non preoccuparsi di utilizzare il periodo di scansione per indicizzare quel contenuto. Questo dà al bot del motore di ricerca più tempo per esaminare le altre tue pagine.
8. Concentrati sulla tua struttura di collegamento interna
Avere una pratica di collegamento ben strutturata all'interno del tuo sito può aumentare l'efficienza di una scansione di Google. I collegamenti interni indicano a Google quali pagine del tuo sito sono più importanti e questi collegamenti aiutano i crawler a trovare le pagine più facilmente.
Le migliori strutture di collegamento connettono utenti e Googlebot ai contenuti del tuo sito web. Usa sempre il testo di ancoraggio pertinente e posiziona i tuoi link in modo naturale in tutto il tuo contenuto.

Per i siti di e-commerce, Google dispone delle best practice per le opzioni di navigazione a faccette per massimizzare le scansioni. La navigazione a faccette consente agli utenti del sito di filtrare i prodotti in base agli attributi, rendendo lo shopping un'esperienza migliore. Questo aggiornamento aiuta a evitare confusione canonica e problemi duplicati oltre a scansioni di URL in eccesso.
9. Elimina i contenuti non necessari

I Googlebot possono solo muoversi così velocemente e indicizzare così tante pagine ogni volta che eseguono la scansione di un sito. Se hai un numero elevato di pagine che non ricevono traffico o hanno contenuti obsoleti o di bassa qualità, tagliali! Il processo di potatura ti consente di eliminare il bagaglio in eccesso del tuo sito che può appesantirlo.
Avere pagine eccessive sul tuo sito può deviare i Googlebot su pagine non importanti ignorando le pagine.
Ricorda solo di reindirizzare tutti i collegamenti a queste pagine, in modo da non finire con errori di scansione.
10. Accumula più backlink
Proprio come i Googlebot arrivano sul tuo sito e iniziano a indicizzare le pagine in base a link interni, usano anche link esterni nel processo di indicizzazione. Se altri siti si collegano al tuo, Googlebot si sposterà sul tuo sito e indicizzerà le pagine per comprendere meglio il contenuto del link.
Inoltre, i backlink conferiscono al tuo sito un po' più di popolarità e attualità, che Google utilizza per determinare la frequenza con cui il tuo sito deve essere indicizzato.
11. Elimina le pagine orfane

Poiché il crawler di Google passa da una pagina all'altra attraverso i collegamenti interni, può trovare facilmente le pagine a cui sono collegati. Tuttavia, le pagine che non sono collegate a un punto del tuo sito spesso passano inosservate a Google. Queste sono indicate come "pagine orfane".
Quando è una pagina orfana appropriata? Se si tratta di una pagina di destinazione che ha uno scopo o un pubblico molto specifico. Ad esempio, se invii un'e-mail ai golfisti che vivono a Miami con una pagina di destinazione che si applica solo a loro, potresti non voler collegare alla pagina da un altro.
I migliori strumenti per l'ottimizzazione del budget di scansione

Search Console e Google Analytics possono tornare molto utili quando si tratta di ottimizzare il budget di scansione. Search Console ti consente di richiedere a un crawler di indicizzare le pagine e tenere traccia delle tue statistiche di scansione. Google Analytics ti aiuta a monitorare il tuo percorso di collegamento interno.
Altri strumenti SEO, come SearchAtlas, ti consentono di trovare facilmente i problemi di scansione tramite gli strumenti di Site Audit. Con un rapporto, puoi vedere i seguenti dati del tuo sito:
- Rapporto di scansione dell'indicizzazione
- Profondità dell'indice
- Velocità della pagina
- Contenuto duplicato
- Mappa del sito XML
- Collegamenti
Ottimizza il tuo budget di scansione e diventa un motore di ricerca con le migliori prestazioni
Anche se non puoi controllare la frequenza con cui i motori di ricerca indicizzano il tuo sito o per quanto tempo, puoi ottimizzare il tuo sito per ottenere il massimo da ciascuna scansione dei motori di ricerca. Inizia con i log del tuo server e dai un'occhiata più da vicino al tuo rapporto di scansione su Search Console. Quindi tuffati nella correzione di eventuali errori di scansione, struttura dei link e problemi di velocità della pagina.
Mentre elabori la tua attività di scansione GSC, concentrati sul resto della tua strategia SEO, inclusa la creazione di link e l'aggiunta di contenuti di qualità . Nel tempo, scoprirai che le tue landing page salgono nelle pagine dei risultati dei motori di ricerca.
