Skip links

Robots.txt

Definizione

Il file robots.txt, noto anche come protocollo di esclusione dei robot, serve a impedire ai crawler dei motori di ricerca di accedere a determinati file del vostro sito. Agisce come una guida per i bot dei motori di ricerca, siano essi Googlebot, Bingbot o Yandex, durante il crawling del tuo sito, bloccando loro l’accesso a determinate URL. Si tratta di un file che è necessario includere nel proprio sito se si vuole che si posizioni.

Questo file viene collocato nella directory principale di un sito web. È quindi uno dei primi file analizzati dai crawler. Per verificare che sia presente, basta digitare l’indirizzo del proprio sito nella barra di ricerca e poi aggiungere “/robots.txt”. Se non è presente, verrà visualizzato un errore 404.

Webmaster en pleine rédaction du robots.txt de son site

A cosa serve un file robots.txt?

Come funziona questo file

Questo file consente di vietare l’esplorazione e quindi l’indicizzazione:

  • Di alcune pagine del proprio sito a tutti i crawler dei motori di ricerca
  • Del proprio sito in generale da parte di alcuni robot in particolare
  • Di alcune pagine del proprio sito a determinati robots.

Inoltre, il file robots.txt indica la propria sitemap ai crawler dei motori di ricerca, in modo che possano trovarla facilmente.

Importanza del file robots.txt nella SEO

Questo file robots.txt, se utilizzato correttamente, consente di ottimizzare il posizionamento organico del proprio sito web. Infatti, consente di :

  • impedire ai robots di indicizzare contenuti duplicati
  • fornire ai crawlers la sitemap del proprio sito
  • risparmiare il crawl budget dei robots di Google escludendo le pagine di bassa qualità o irrilevanti dal tuo sito web.

Quando è necessario utilizzare un file robot.txt?

Per i siti di e-commerce

Si tratta di un file molto utilizzato, in particolare per i siti di e-commerce, in quanto consente di risolvere i problemi di contenuti duplicati derivanti, ad esempio, dalle ricerche sfaccettate. Si tratta di un metodo di navigazione presente in molti siti di e-commerce, che consente agli utenti di trovare rapidamente ciò che cercano filtrando i diversi prodotti offerti sul sito. Tuttavia, questo metodo di ricerca porta alla creazione di molte pagine con contenuti molto simili, a causa della moltitudine di combinazioni possibili tra i diversi filtri e categorie. Queste pagine rischiano di cannibalizzarsi a vicenda e di diluire il PageRank acquisito dalle pagine strategiche.

È qui che entra in gioco il file robot.txt, che può essere utilizzato per impedire che queste pagine vengano scansionate dai robots dei motori di ricerca, lasciandole però accessibili agli utenti.

Per pagine specifiche del proprio sito web

Questo file robot.txt viene utilizzato anche per impedire a Google di effettuare il crawling di alcune pagine specifiche del proprio sito web:

  • Immagini
  • PDF
  • Video
  • File Excel

Si tratta infatti di pagine che vengono generalmente utilizzate per attrarre leads. Ad esempio, se si desidera ottenere i contatti degli utenti prima di dare loro accesso a questi documenti, il file robot.txt consente di bloccare l’accesso a tutti coloro che non hanno compilato le informazioni richieste.

Per mantenere private alcune parti del sito

In qualità di webmaster, è probabile che vi siano alcune parti del proprio sito che si desidera mantenere private, come alcuni file personali o le impostazioni delle URL.

Per evitare di sovraccaricare il sito web

Infine, questo file robot.txt può essere utilizzato per impostare un ritardo di crawl per evitare che i server vengano sovraccaricati dai crawlers dei motori di ricerca. Infatti, quando i crawler esplorano diversi contenuti del tuo sito allo stesso tempo, possono causare un sovraccarico dei tuoi server che non hanno la capacità di caricare così tanti contenuti contemporaneamente.

Come creare un file robots.txt?

Il file robots.txt viene creato manualmente o generato automaticamente dalla maggior parte dei CMS, come WordPress, e deve trovarsi nella directory principale del sito. Ma è anche possibile utilizzare strumenti online per creare questo file.

Se si desidera creare manualmente il file robots.txt, è possibile utilizzare qualsiasi editor di testo seguendo alcune regole:

  • Sintassi e istruzioni : User-agent, disallow e allow.
  • Richiamo del file robots.txt.
  • La struttura da adottare: un’istruzione per riga senza lasciarne nessuna vuota.

Attenzione, il file robots.txt non deve essere più grande di 512 Kb.

Creare il file robots.txt con Rank Math

Creare il file robots.txt è molto semplice. Per farlo, basta andare nella scheda “impostazioni generali” del plugin, quindi cliccare su “modifica robots.txt”. È possibile scrivere il file direttamente nel plugin, che lo integrerà automaticamente nel sito.

Attenzione: se si è già aggiunto un file robots.txt al sito prima di installare il plugin Rank Math e ora si desidera gestirlo tramite il plugin, è necessario eliminare il file dal sito prima di poterlo modificare in Rank Math.

Creare il file robots.txt con Yoast

È inoltre possibile utilizzare il plugin Yoast per gestire il file robots.txt. Come per la matematica dei ranghi, il funzionamento è piuttosto semplice. Per farlo, accedere al menu “referenze” del plugin. Fare quindi clic su “strumenti”, quindi su “modifica file”. Se non si è ancora aggiunto il file al plugin, è sufficiente crearlo facendo clic sul pulsante associato. È sufficiente apportare le modifiche desiderate prima di fare clic su “Salva”.

Quale linguaggio utilizzare per un file robots.txt?

Il file robots.txt utilizza un linguaggio specifico in cui sono presenti alcune espressioni regolari, chiamate Regex, che consentono di semplificare la scrittura del robots.txt. Ecco alcune espressioni comuni.

User-agent:

Questo comando consente di utilizzare motori di ricerca specifici. Il file robot.txt è il primo file che i robot dei motori di ricerca analizzano. Verificano quindi di essere stati menzionati in questo file. Se vedono comparire il loro nome, leggono i comandi che sono stati loro assegnati.

Per citare un motore di ricerca, è sufficiente inserire il suo nome dopo il comando User-agent. Ad esempio, se si vuole citare Google, si scrive “User-agent: Googlebot”. Inoltre, se si desidera centralizzare tutti i comandi indirizzati ai motori di ricerca identificandoli tutti in una volta, è sufficiente scrivere il seguente comando: “User-agent: * “.

Disallow: /

Questo comando impedisce ai crawler di effettuare il crawling di alcune parti del sito web. Tuttavia, è possibile aggiungere solo un comando per riga, motivo per cui nei file robots.txt sono presenti più righe di comandi “disallow” in fila.

Ad esempio, se si mette “Disallow: */catalog/” dopo il comando “User-agent: Googlebot”, si impedisce ai bot di Google di visitare tutte le pagine del catalogo.

Allow: /

Questo comando si applica solo a un crawler di Google, chiamato Googlebot, e gli consente di accedere a una pagina o a una sottocartella, anche se gli viene negato l’accesso alla pagina madre.

Ad esempio, se si aggiunge il comando “Allow: /wp-admin/admin-ajax.php” dopo il comando “Disallow: /wp-admin/”, si consente a Googlebot di accedere alla sottocartella “admin-ajax.php”, ma non di effettuare il crawling della pagina “wp-admin”.

Crawl-Delay:

Il comando Crawl-Delay consente di chiedere ai crawlers di attendere alcuni secondi prima di effettuare il crawling del sito. Ad esempio, inserendo “Crawl-Delay: 20”, si chiede ai robot dei motori di ricerca interessati di attendere 20 secondi prima di entrare nel sito.

Sitemap:

Come si può immaginare, questo comando consente di indicare direttamente la sitemap ai crawlers. A tal fine, è sufficiente inserire l’URL della sitemap dopo il comando “Sitemap:”.

Sintassi di robots.txt

Ci sono alcuni elementi di sintassi specifici dei file robots.txt che è importante conoscere:

  • /: Permette di separare i file. Se si lascia semplicemente un “/” senza aggiungere il nome di uno dei file del sito, significa che il comando riguarda l’intero sito. Ad esempio, il comando “Disallow: /” significa che si nega l’accesso all’intero sito ai robot dei motori di ricerca.
  • * : L’asterisco consente di includere tutti gli elementi di un sito collegati a uno o più criteri indicati subito dopo. Ad esempio, il seguente comando “Disallow: *?filter=*” vieta ai motori di ricerca di accedere a tutti gli URL contenenti “?filter=”.
  • #: L’hashtag consente di aggiungere commenti al file robots.txt. Ciò consente di fornire informazioni aggiuntive a qualsiasi lettore del file, senza che i motori di ricerca le scambino per istruzioni.
  • $ : Il segno del dollaro consente di fornire una linea guida per tutti gli URL contenenti un determinato elemento, indipendentemente dagli slug che precedono tale elemento nell’URL. Ad esempio, l’istruzione “Disallow: /solutions/$” vieta ai motori di ricerca di accedere a tutti gli URL contenenti l’elemento “/solutions/”, indipendentemente dagli slug elencati dopo di esso.

Alcuni suggerimenti per ottimizzare questo file

Per ottimizzare il file robots.txt, è importante adottare alcune buone pratiche:

  • Assicurarsi di non bloccare le URL del sito web che si desidera indicizzare.
  • Tenere presente che i link inseriti nelle pagine bloccate non saranno seguiti.
  • Non utilizzare il file robots.txt per bloccare la visualizzazione di dati sensibili nella SERP. In effetti, questo file non impedisce sistematicamente l’indicizzazione delle URL bloccate, perché queste pagine possono benissimo essere indicizzate se altri siti o pagine puntano ad esse.
  • Alcuni motori di ricerca hanno diversi crawlers. Specificare le linee guida per ciascuno di questi crawler non è obbligatorio, ma aiuta a perfezionare l’analisi dei contenuti.

Per assicurarsi che tutte le URL importanti siano indicizzabili da Google, è possibile verificare il file robots.txt. A tal fine, è sufficiente registrare il sito nella Google Search Console, quindi fare clic su Crawl nel menu, e cliccare su Robots.txt Testing Tool.

Limiti del file robots.txt

Tuttavia, questo file robots.txt ha alcune limitazioni nella sua utilità. Le limitazioni sono le seguenti:

  • Le direttive contenute in questo file robots.txt non sono compatibili con tutti i motori di ricerca: questo file fornisce istruzioni, ma spetta al crawler rispettarle o meno. Per questo motivo è consigliabile utilizzare altri metodi di blocco per proteggere alcuni dati del proprio sito web. Ad esempio, è possibile proteggere i file privati del sito con una password.
  • Non tutti i crawler interpretano la sintassi allo stesso modo: è quindi difficile trovare la sintassi giusta affinché tutti i crawlers comprendano le proprie linee guida.
  • Una pagina non consentita nel file robots.txt può comunque essere indicizzata se altri siti vi puntano.

Le definizioni più diffuse

Aumenta la tua visibilità!

Non esitare a contattarci per un preventivo gratuito sui nostri vari servizi.

Notez ce page