Index Bloat

Iniziale > Agenzia SEO > Glossario SEO > Index bloat

Definizione

L’index bloat si verifica quando i motori di ricerca indicizzano un elevato numero di pagine di un sito web che non apportano contenuti di valore agli utenti. Si tratta principalmente di pagine vuote, duplicate o con un contenuto non rilevante. Proprio per questo in inglese viene usato il termine “bloat”, “gonfiore”, poiché l’indicizzazione di queste pagine fa sembrare un sito web più grande, più gonfio di quello che realmente è. Ciò comporta uno spreco del crawl budget che il sito ha a disposizione, a discapito dei contenuti di valore che possono venire scansionati e indicizzati più lentamente o, nei casi peggiori, completamente ignorati.

Accesso rapido

Perché l'Index Bloat influisce sulla strategia SEO

Una situazione di index bloat influisce negativamente sulla strategia SEO di un sito web, compromettendo il suo posizionamento nella SERP. Di seguito, approfondiremo come questo influisce sul crawl budget e sulla qualità e autorevolezza del sito stesso.

Impatto sul crawl budget e sulla scansione del sito

Google assegna a ogni pagina web un determinato crawl budget, ovvero numero finito di risorse per la sua scansione. Il crawl budget viene definito sulla base di fattori quali: il tempo di caricamento della pagina, la qualità dei contenuti, la profondità della pagina, la frequenza degli aggiornamenti e la presenza di errori tecnici. Ogni sito presenta quindi un budget limitato che non deve essere sprecato se vuole apparire tra i primi risultati della SERP. In una situazione di index bloat, il crawl budget si disperde nella scansione di pagine vuote, con contenuto duplicato o irrilevante per l’utente, a discapito delle pagine che soddisfano i criteri di EEAT (esperienza, competenza, autorevolezza e affidabilità) e che potrebbero non essere scansionate e indicizzate correttamente.

La scansione di pagine inutili danneggia il posizionamento del sito web stesso, comportando:

Ritardo del Revamp e del Ranking: una volta esaurito il crawl budget, Google non potrà scansionare le pagine recentemente aggiornate. Questo significa che Google continuerà a vedere la versione obsoleta fino alla nuova scansione. Senza l’indicizzazione delle modifiche ai meta-tag, la pagina non potrà migliorare il proprio posizionamento.
Ritardo nell’indicizzazione: senza nuove risorse, Googlebot potrebbe non scansionare velocemente eventuali nuove pagine pubblicate, ritardandone l’indicizzazione e il posizionamento all’interno della SERP.

Uno scenario disastroso nella società dell’immediatezza e dell’iperconnessione, dove un ritardo si traduce direttamente in una perdita di visibilità organica, di traffico e, conseguentemente, di conversioni economiche.

Effetti negativi sul posizionamento delle pagine strategiche

L’index bloat non impatta solo sul crawl budget, ma anche sulla qualità e l’affidabilità del sito, uno dei pilastri dell’indicizzazione di Google. Infatti, maggiore è il numero di pagine irrilevanti che vengono scansionate e indicizzate, minore sarà la valutazione di qualità e autorevolezza dell’intero dominio, influenzandone negativamente il posizionamento.

Inoltre, il ranking di una pagina potrebbe diminuire a causa del cosiddetto fenomeno della keyword cannibalization, la cannibalizzazione delle keyword. Quando un motore di ricerca scansiona più pagine dal contenuto simile, queste potrebbero entrare in competizione tra loro per la stessa keyword, depotenziandosi a vicenda all’interno della SERP.

È dunque importante evitare la scansione di pagine di poco valore che possono diminuire la qualità complessiva del sito web, compromettendone l’autorevolezza.

Principali cause di Index Bloat

Una volta capita la natura dell’index bloat e come questo possa danneggiare una strategia SEO ben strutturata, è importante analizzarne le cause. Di seguito sono riportate le principali di natura tecnica a cui prestare attenzione.

Parametri URL duplicati e filtri di navigazione

La proliferazione incontrollata di URL inutili è una delle cause principali di index bloat. Prendiamo come esempio la navigazione a faccette dei siti e-commerce. I filtri di navigazione facilitano la navigazione degli utenti, migliorandone l’esperienza online. Ricorda tuttavia che possono influire negativamente sul posizionamento del sito. Ogni volta che un utente filtra un prodotto per taglia, colore o brand, il sito crea un URL parametrizzato per ogni combinazione. Il risultato? URL di pagine dal contenuto quasi identico che vengono scansionate sprecando crawl budget.

La generazione di URL duplicati non si limita solamente ai siti e-commerce, ma dipende anche da difetti tecnici e strutturali dei siti web. Le duplicazioni si verificano generalmente quando:

La stessa pagina può essere raggiunta sia in HTTP sia in HTTPS;
L’URL può essere scritto con e senza “/” finale (/maglietta e /maglietta/), dando vita a due entità separate;
L’URL può essere scritto con e senza “www”.

In entrambi i casi, Googlebot si ritrova a scansionare pagine dal contenuto quasi identico, alimentando l’index bloat a discapito delle pagine strategiche.

Pagine di paginazione e archivi indicizzati inutilmente

Questa è la causa più comune di index bloat in un blog. I CMS come WordPress generano automaticamente pagine di archivio per data, autore e categoria. Il loro contenuto, sebbene non originale, viene indicizzato lo stesso, abbassando la qualità del sito. Oltre a ciò, le ultime pagine dell’archivio contenenti articoli vecchi ricevono solitamente un traffico quasi uguale a zero. Anche le pagine di paginazione, ovvero quelle che solitamente si raggiungono grazie a bottoni del tipo come “Successivo”, “1, 2, 3…” in fondo a un elenco, possono portare a un eccesso di indicizzazione di pagine inutili. In particolar modo, contribuiscono alla formazione di contenuti duplicati, dato che le pagine di paginazione mostrano spesso anteprime di testi. Come visto in precedenza, la presenza di contenuti duplicati spreca il crawl budget di un sito a causa della scansione di pagine inutili, a discapito di quelle strategiche.

Pagine generate dinamicamente da ricerche interne

I siti che presentano un motore di ricerca interno possono incorrere nella generazione di URL unici ogni volta che una ricerca viene effettuata da un utente. Questi URL vengono indicizzati da Googlebot sebbene non abbiano alcuna rilevanza per la SEO.

Come identificare l'Index Bloat sul tuo sito

L’index bloat è facilmente identificabile utilizzando diversi tool come Google Search Console e Screaming Frog. Google Search Console permette di analizzare lo stato di indicizzazione del proprio sito, mentre Screaming Frog consente di effettuare un crawl tecnico per trovare gli URL problematici. Vediamo ora come funzionano.

Analisi dello stato di indicizzazione con Google Search Console

Google Search Console è un tool gratuito di Google che permette al proprietario del sito di vedere come questo viene scansionato e indicizzato da Google. Per individuare un problema di index bloat è necessario consultare la sezione “Indicizzazione” alla tab “Pagine“, dove viene segnalato il numero delle pagine presenti nell’indice di Google e quelle escluse. Nella sezione “Perché le pagine non sono indicizzate”, si può consultare il motivo della loro esclusione. Per verificare la presenza di pagine senza valore nei risultati di ricerca, è necessario svolgere un’analisi qualitativa cliccando sul report delle pagine indicizzate. Questo permette di individuare, ad esempio, la presenza di URL duplicati che stanno intasando l’indice.

Screen di Google Search Console per valutare Index Bloat

Ricerca di URL problematici tramite crawl tecnico: Screaming Frog

Il crawl tecnico è una vera e propria simulazione di quello che fa Google durante la fase di crawling: il sito viene scansionato pagina per pagina e alla fine viene prodotto un report contenente tutti gli URL trovati e le loro caratteristiche tecniche. Analizzando questi dati, possiamo isolare le pagine indicizzabili e valutarne la pertinenza. Filtrando per gli URL indicizzabili, possiamo valutare se la loro presenza sia corretta o meno. Diventa così più semplice verificare la corretta gestione delle pagine parametriche ed eseguire un controllo di qualità sugli URL statici, isolando tutto ciò che rischia di generare index bloat. Il tool di riferimento per questa analisi tecnica è Screaming Frog, di cui esiste anche una versione gratuita adatta per i siti più piccoli.

Tecniche per risolvere l'Index Bloat

L’individuazione della causa permette di capire quale strategia tecnica applicare per la risoluzione dell’index bloat, nonché per la sua prevenzione. In questo paragrafo ci focalizzeremo sulla descrizione delle tecniche di noindex, canonical e robots.txt. Parleremo, inoltre, di quanto sia importante monitorare il proprio sito per intervenire tempestivamente in caso di index bloat.

Strategie tecniche: noindex, canonical e robots.txt

Una volta individuate le pagine problematiche, si possono applicare tre tipi di soluzioni a seconda dell’obiettivo che si vuole ottenere.

Tag noindex: questo tag viene solitamente inserito nell’HTML della pagina o nella sua Risposta HTTP lato server. Il tag indicherà ai crawler di non indicizzare la risorsa. Si usa generalmente su pagine che devono rimanere presenti sul sito, ma che non è necessario che appaiano tra i risultati di ricerca, come pagine di log in, archivi, e pagine di ricerca interna.
Tag canonical: utile in caso di duplicati tecnici, come i parametri URL. Il tag canonical indica a Google quale pagina indicizzare tra più pagine simili, evitando di richiedere l’indicizzazione di pagine non utili o non necessarie. Questa soluzione è utile per risolvere le varianti di URL generate dai filtri nei siti di e-commerce. Tuttavia, Google potrebbe considerare il tag canonical solo come un suggerimento, non come un divieto, ignorando così l’istruzione.
File robots.txt: si tratta di un file di testo inserito nella directory principale di un sito web e che impedisce, tramite l’applicazione di una regola di Disallow, la scansione di alcune pagine del sito stesso. Al contario del noindex, che impedisce solo l’indicizzazione del contenuto, il robots.txt si utilizza come prevenzione. Se inserito post indicizzazione, sarà necessario applicare prima un noindex per ottenere la deindicizzazione delle risorse e poi un Disallow per bloccarne la scansione. Di seguito, un esempio delle classiche applicazioni di Disallow, ricordando che l’URL path riportato è solo indicativo e che può variare a seconda del sito:
- Disallow: /*?s= per impedire la scansione delle query di ricerca;
- Disallow: */page/* quando si vuole evitare l’accesso di Googlebot alle pagine di archivio numerate;
- Disallow: /*?sort= o Disallow: /*?filter= per contrastare i problemi della navigazione a faccette dei siti e-commerce.

Monitoraggio continuo per mantenere un indice pulito

L’azione più importante per evitare un index bloat è la prevenzione, tramite l’applicazione delle strategie tecniche sovracitate. Tuttavia, un monitoraggio continuo del proprio sito tramite tool come Screaming Frog e Google Search Console è la chiave per evitare che l’index bloat rimanga nascosto troppo a lungo. La frequenza del monitoraggio dipende dalle dimensioni e dalla tipologia del sito. Ad esempio, un sito medio può applicare uno screening mensile su Google Search Console e un crawl tecnico trimestrale. Per un sito e-commerce grande con un catalogo in costante aggiornamento è consigliabile un monitoraggio più frequente, anche settimanale.

Errori comuni da evitare nella gestione dell'Index Bloat

Non basta essere consapevoli del problema e conoscere le possibili soluzioni per risolverlo. Bisogna anche prestare la massima attenzione per non peggiorare la situazione evitando gli errori più comuni durante la risoluzione dell’index bloat.

Affidarsi a una sola tecnica per tutte le situazioni

Ogni caso di index bloat è differente e necessita di soluzioni su misura. L’errore più comune è applicare una sola tecnica senza considerare le circostanze: la soluzione sbagliata nel contesto sbagliato può solo peggiorare il problema. Prima di applicare qualsiasi strategia tecnica è dunque essenziale capire la natura del problema per poterlo risolvere al meglio.

Eccesso di ottimizzazione: rimuovere pagine utili per errore

Un altro errore che può rivelarsi fatale è la rimozione di pagine utili durante il processo di ottimizzazione del sito web. Una volta che Google Search Console ha evidenziato le pagine problematiche in seguito all’analisi dell’indice, la tentazione è di procedere con una pulizia totale del sito. Tuttavia, non tutte le pagine che sembrano inutili lo sono davvero. Una pagina vecchia con poco traffico può comunque apportare un valore al dominio ricevendo backlink da altri siti. La sua rimozione comporterebbe una perdita di autorevolezza all’interno di Google, danneggiandone il posizionamento.

Duplicare istruzioni di crawl in robots.txt e tag meta noindex

Si tratta dell’errore più tecnico in cui si può incorrere nella gestione dell’index bloat. Succede quando si utilizzano contemporaneamente il blocco scansione robots.txt e tag noindex sullo stesso URL. Le due strategie sono l’una l’opposta dell’altra: mentre con robots.txt si vuole evitare che il motore di ricerca legga e scansioni le pagine bloccate dalla regola di Disallow, il noindex non impedisce il crawling, ma solamente l’indicizzazione. Usarle insieme crea così un paradosso: quando Google trova una pagina bloccata da un file robots.txt, non la visiterà, e non sarà in grado di leggere il tag noindex contenuto al suo interno. Ne consegue che per evitarne la completa indicizzazione, la pagina deve essere scansionabile in modo che Google possa leggere il tag noindex.

Richiedi un pre–audit GRATUITO

Le definizioni più diffuse

backlink
backlink dofollow
backlink nofollow
articolo sponsorizzato
link anchor
citation flow
scambio di link
link juice
toxic link
netlinking
keyword density

Notez ce page