Robots.txt

Home > SEO bureau > SEO begrippen > Robots.txt

Definitie

Het Robots.txt-bestand, ook bekend als het Robots Exclusion Standard Protocol, voorkomt dat zoekmachine crawlers bepaalde bestanden op je website bereiken. Het dient als een gids voor zoekmachinebots, zoals Googlebots, Bingbots of Yandex bots, en beperkt hun toegang tot specifieke URL’s tijdens het crawlen van je website. Dit bestand moet je toevoegen aan je website als je wilt dat het in de ranglijst verschijnt.

Dit bestand wordt bovenaan een website geplaatst. Het is daarom een van de eerste bestanden die door de crawlers worden geanalyseerd. Om te controleren of het bestaat, voer je het adres van je website in de zoekbalk in en voeg je er “/robots.txt” aan toe. Als deze niet aanwezig is, verschijnt er een 404 foutmelding.

op deze pagina

Wat doet een robots.txt bestand?

Werking van dit bestand

Dit bestand maakt het mogelijk om crawlen en dus indexeren te voorkomen:

van specifieke pagina’s op je site voor alle zoekmachine crawlers
van je site in het algemeen door bepaalde robots
van specifieke pagina’s op je site voor specifieke robots

Bovendien informeert het robots.txt bestand zoekmachine crawlers over je sitemap, zodat ze deze eenvoudig kunnen vinden.

Belang van het robots.txt bestand voor SEO

Het correct gebruik van het robots.txt-bestand kan de SEO van je website bevorderen. Het maakt namelijk mogelijk:

Voorkomen van idexering van dubbele inhoud door robots
Crawlers voorzien van de sitemap van je site
Bespaar het crawlbudget van de robots van Google door pagina’s van lage kwaliteit of irrelevante pagina’s van je website uit te sluiten

Wanneer moet ik een robots.txt bestand gebruiken?

Voor e-commerce websites

Het is een veelgebruikt bestand, vooral voor e-commercesites, omdat het kan helpen bij het oplossen van problemen met dubbele inhoud als gevolg van gefilterde zoekopdrachten. Deze zoekmethode, vaak aanwezig op e-commercesites, stelt gebruikers in staat om snel te vinden wat ze zoeken door de verschillende producten op de site te filteren. Echter, dit kan leiden tot het ontstaan van veel pagina’s met zeer vergelijkbare inhoud, vanwege de vele mogelijke combinaties tussen verschillende filters en categorieën. Deze pagina’s kunnen dan met elkaar concurreren en de PageRank van je belangrijkste pagina’s verzwakken.

Hier komt het robots.txt bestand in het spel. Je kunt dit bestand gebruiken om te voorkomen dat deze pagina’s worden gecrawld door zoekmachinerobots, terwijl ze nog steeds toegankelijk blijven voor gebruikers.

Voor specifieke pagina's op je website

Het robots.txt bestand wordt ook gebruikt om te voorkomen dat Google bepaalde pagina’s op je site crawlt:

Afbeeldingen
Pdf’s
Video’s
Excel bestanden

Dit komt doordat deze pagina’s meestal bedoeld zijn om leads te genereren. Bijvoorbeeld, als je gebruikersgegevens wilt verzamelen voordat je toegang verleent tot deze documenten, kun je het robots.txt-bestand gebruiken om de toegang te beperken voor degenen die de vereiste informatie niet hebben verstrekt.

Om delen van je website privé te houden

Als webmaster zijn er waarschijnlijk bepaalde delen van je site die je privé wilt houden, zoals bepaalde persoonlijke bestanden of URL-parameters.

Om overbelasting van je website te voorkomen

Ten slotte kan het robots.txt bestand worden gebruikt om een crawl vertraging in te stellen, zodat je servers niet worden overweldigd door crawlers van zoekmachines. Als de crawlers meerdere inhoud op je website tegelijkertijd onderzoeken, kan dit de servers overbelasten, aangezien ze niet de capaciteit hebben om zoveel inhoud tegelijkertijd te laden.

Hoe maak je een robots.txt bestand?

Het robots.txt-bestand wordt handmatig gemaakt of automatisch gegenereerd door de meeste CMS, zoals WordPress, en moet in de hoofdmap, ook wel de root, van een site worden gevonden. Maar je kan ook online tools gebruiken om dit bestand te maken.

Als je handmatig een robots.txt-bestand wilt maken, kun je elke teksteditor gebruiken en bepaalde richtlijnen volgen:

Syntax en instructies: User-agent, disallow en allow.
Noem het bestand robots.txt
Volg een duidelijke structuur: één instructie per regel zonder iets leeg te laten

Let op, je robots.txt bestand mag niet groter zijn dan 512 Kb

Robots.txt bestand creëren met Rank Math

Het maken van je robots.txt bestand is zeer eenvoudig. Ga naar het tabblad ‘Algemene instellingen’ van de plug-in en klik op ‘Robots.txt bewerken’. Hier kun je direct in de plug-in het bestand bewerken, wat automatisch geïntegreerd wordt in je website.

Let op dat als je al een robots.txt bestand aan je site had toegevoegd voordat je de Rank Math plug-in installeerde en je het nu via de plug-in wilt beheren, je het bestand van je site moet verwijderen voordat je het in Rank Math kunt bewerken.

Robots.txt bestand creëren met Yoast

Met de Yoast plug-in kun je ook je robots.txt bestand beheren. Net als bij Rank Math is de manier waarop het werkt vrij eenvoudig. Klik op ‘SEO’ in je dashboard van de plug-in, daarna navigeer je naar ‘Tools’ en vervolgens op ‘Bestand bewerken’. Als je het bestand nog niet aan de plug-in hebt toegevoegd, maak je het gewoon aan door op de bijbehorende knop te klikken. Voer de gewenste wijzigingen door en klik op ‘Opslaan’.

Welke taal moet je gebruiken voor een robots.txt bestand?

Het Robots.txt bestand maakt gebruik van een specifieke taal met enkele reguliere expressies, ook wel Regex genoemd, om het schrijven van robots.txt eenvoudiger te maken. Hier zijn enkele veelvoorkomende uitdrukkingen.

User-agent:

Deze opdracht stelt je in staat specifieke zoekmachines te targeten. Het Robots.txt bestand is het eerste bestand dat de zoekmachinerobots controleren. Ze controleren vervolgens of ze in dit bestand vermeld staan. Als hun naam daar staat, dan lezen ze de instructies die aan hen zijn toegewezen.

Om een zoekmachine te vermelden, voeg je eenvoudig de naam ervan toe na het User-agent commando. Bijvoorbeeld, als je Google wilt vermelden, schrijf je “User-agent: Googlebot”. Als je alle commando’s die op zoekmachines zijn gericht centraal wilt stellen door ze allemaal tegelijk te identificeren, hoef je alleen het volgende commando te schrijven: “User-agent: *”.

Disallow: /

Deze opdracht voorkomt dat crawlers bepaalde delen van je website crawlen. Je kunt echter slechts één opdracht per regel toevoegen. Daarom zijn er meerdere regels met “disallow” opdrachten op rij in robots.txt bestanden.

Als je bijvoorbeeld “Disallow: */catalog/” achter het commando “User-agent: Googlebot” plaatst, sta je de robots van Google niet toe om al de cataloguspagina’s te bezoeken.

Allow: /

Deze opdracht is specifiek voor een Google-crawler genaamd Googlebot en staat deze toe toegang te krijgen tot een pagina of submap, zelfs als de toegang tot de bovenliggende pagina is geweigerd.

Als je bijvoorbeeld het commando “Allow: /wp-admin/admin-ajax.php” toevoegt na het “Disallow: /wp-admin/”, geef je de Googlebot toegang tot de submap “admin-ajax.php”, maar niet om de “wp-admin” pagina te doorzoeken.

Crawl-Delay:

Met de Crawl-Delay opdracht kun je crawlers verzoeken om een paar seconden te wachten voordat ze je site crawlen. Als je bijvoorbeeld “Crawl-Delay: 20” invoert, vraag je de robots van de desbetreffende zoekmachine(s) om 20 seconden te wachten voordat ze je site betreden.

Sitemap:

Zoals je je kunt voorstellen, kun je met deze opdracht je sitemap rechtstreeks aan de crawlers doorgeven. Om dit te doen, voeg je de URL van je sitemap in na de opdracht “Sitemap”.

Syntax van robots.txt

Er zijn enkele syntax elementen die specifiek zijn voor robots.txt bestanden en die belangrijk zijn om te weten:

/ : Hiermee kun je bestanden scheiden. Als je een “/” achterlaat zonder de naam van een specifiek bestand op je site toe te voegen, betekent dit dat de opdracht van toepassing is op al je pagina’s. Het commando “Disallow: /” betekent bijvoorbeeld dat je de toegang tot de gehele site blokkeert voor de relevante spiders van zoekmachines.
* : Het sterretje wordt gebruikt om alle elementen van een website vast te leggen die verband houden met een of meer van de criteria die erachter staan. Het volgende commando “Disallow: *?filter=*” voorkomt bijvoorbeeld dat zoekmachines toegang krijgen tot alle URL’s die “?filter=” bevatten.
# : De hashtag maakt het mogelijk opmerkingen toe te voegen aan uw robots.txt bestand. Dit stelt u in staat extra informatie te verstrekken aan iedereen die het bestand leest, zonder dat zoekmachines het als instructies beschouwen.
$ : Het dollarteken maakt het mogelijk een instructie te geven met betrekking tot alle URL’s die een bepaald element bevatten, ongeacht de slugs die aan dit element in de URL voorafgaan. De instructie “Disallow: /solutions/$” verbiedt bijvoorbeeld zoekmachines toegang tot alle URL’s die het element “/solutions/” bevatten, ongeacht de slugs die daarop volgen.

Enkele tips voor het optimaliseren van dit bestand

Om het robots.txt bestand te optimaliseren, is het belangrijk om enkele goede praktijken toe te passen:

Zorg ervoor dat de URL’s die je wilt indexeren niet worden geblokkeerd in je robots.txt bestand.
Houd er rekening mee dat links op geblokkeerde pagina’s niet worden gevolgd.
Gebruik het robots.txt bestand niet om de weergave van gevoelige gegevens in de SERP te blokkeren. Dit bestand verhindert namelijk niet systematisch de indexering van geblokkeerde URL’s, aangezien deze pagina’s nog steeds geïndexeerd kunnen worden als andere sites of pagina’s ernaar verwijzen.
Sommige zoekmachines hebben meerdere crawlers. Het opgeven van richtlijnen voor elk van deze crawlers is niet verplicht, maar het helpt wel om je inhoudsanalyse te verfijnen

Test je robots.txt bestand om ervoor te zorgen dat alle belangrijke URL’s door Google kunnen worde geïndexeerd. Registreer hiervoor je site bij Google Search Console, ga naar Crawlen in het menu en selecteer vervolgens de Robots.txt Testing Tool.

Beperkingen van het robots.txt bestand

Het gebruik van een robots.txt bestand heeft echter ook enkele beperkingen:

De richtlijnen in het robots.txt bestand zijn niet compatibel met alle zoekmachines. Hoewel het bestand instructies geeft, ligt het in de hand van de crawler om deze te gehoorzamen of niet. Daarom wordt aangeraden andere blokkeermethoden te overwegen om bepaalde gegevens op je website te beschermen, zoals het beveiligen van privébestanden met een wachtwoord.
Niet alle crawlers interpreteren de syntax op dezelfde manier. Het is daarom een uitdaging om voor alle crawlers de juiste syntax te vinden om de richtlijnen te begrijpen.
Een pagina die niet is toegestaan in het robots.txt bestand kan nog steeds worden geïndexeerd als andere websites ernaar verwijzen.

De meest populaire begrippen

canonical Tag
disallow
FAQs
orphan page
satellite page
Permalink
linkbuilding
footer
header
sitemap

Vegroot uw zichtbaarheid

Twijfel niet en contacteer ons voor een gratis en gepersonaliseerde offerte op maat.

Vraag uw GRATIS pre-audit aan

Contacteer ons

Notez ce page