Skip links

Robots.txt

Definition

Die Datei Robots.txt, auch bekannt als Robots-Exclusion-Standard-Protokoll, wird verwendet, um Suchmaschinen-Crawler am Zugriff auf bestimmte Dateien auf Ihrer Website zu hindern. Sie dient als Orientierungshilfe für Suchmaschinen-Bots, ob Googlebots, Bingbots oder Yandex-Bots, beim Crawlen Ihrer Website, indem sie ihnen den Zugriff auf bestimmte URLs verwehrt. Diese Datei müssen Sie in Ihre Website einbinden, wenn Sie wollen, dass sie im Ranking erscheint.

Diese Datei wird ganz oben auf einer Website platziert. Sie ist daher eine der ersten Dateien, die von den Crawlern analysiert wird. Um zu überprüfen, ob sie vorhanden ist, geben Sie einfach die Adresse Ihrer Website in die Suchleiste ein und fügen Sie “/robots.txt” dahinter ein. Wenn sie nicht vorhanden ist, wird eine 404-Fehlermeldung angezeigt.

Webmaster en pleine rédaction du robots.txt de son site

Wozu dient eine Robots.txt-Datei?

Wie diese Datei funktioniert

Diese Datei ermöglicht es, das Crawlen und damit die Indexierung zu verhindern:

  • von bestimmten Seiten Ihrer Website für alle Crawler von Suchmaschinen
  • von Ihrer Website im Allgemeinen durch bestimmte Robots
  • von bestimmten Seiten Ihrer Website für bestimmte Robots

Darüber hinaus informiert die Robots.txt-Datei Suchmaschinen-Crawler über Ihre Sitemap, so dass sie diese leicht finden können.

Bedeutung der Robots.txt-Datei für die SEO

Die Robots.txt-Datei kann, wenn sie richtig verwendet wird, die Suchmaschinenoptimierung Ihrer Website unterstützen. In der Tat ermöglicht sie:

  • Verhinderung der Indizierung duplizierter Inhalte durch Robots
  • Crawler mit der Sitemap Ihrer Website zu versorgen
  • Das Crawl-Budget der Google-Roboter zu schonen, indem minderwertige oder irrelevante Seiten von Ihrer Website ausgeschlossen werden

Wann sollte ich eine Robots.txt-Datei verwenden?

Für E-Commerce-Websites

Es handelt sich um eine Datei, die insbesondere für E-Commerce-Websites häufig verwendet wird, da sie es ermöglicht, das Problem des Duplicate Contents bei der Facettensuche zu lösen. Dabei handelt es sich um eine Navigationsmethode, die auf vielen E-Commerce-Websites zu finden ist und die es den Nutzern ermöglicht, schnell das zu finden, was sie suchen, indem sie die verschiedenen auf der Website angebotenen Produkte filtern. Eine solche Suchmethode führt jedoch dazu, dass viele Seiten mit sehr ähnlichem Inhalt erstellt werden, da es eine Vielzahl von Kombinationsmöglichkeiten zwischen den verschiedenen Filtern und Kategorien gibt. Diese Seiten laufen dann Gefahr, sich gegenseitig zu kannibalisieren und den PageRank, den Ihre strategischen Seiten erhalten, zu verwässern.

An dieser Stelle kommt die Robots.txt-Datei ins Spiel, mit der Sie verhindern können, dass diese Seiten von Suchmaschinen-Robotern gecrawlt werden, während sie für die Nutzer zugänglich bleiben.

Für bestimmte Seiten Ihrer Website

Diese Robots.txt-Datei wird auch verwendet, um Google daran zu hindern, bestimmte Seiten Ihrer Website zu crawlen:

  • Bilder
  • PDFs
  • Videos
  • Excel-Dateien

Dies liegt daran, dass diese Seiten in der Regel dazu dienen, Leads zu gewinnen. Wenn Sie z. B. die Daten der Nutzer einholen möchten, bevor Sie ihnen Zugang zu diesen Dokumenten gewähren, können Sie mit der Robots.txt-Datei den Zugang für alle sperren, die nicht die erforderlichen Angaben gemacht haben.

Um Teile Ihrer Website privat zu halten

Als Webmaster gibt es wahrscheinlich einige Teile Ihrer Website, die Sie geheim halten möchten, z. B. bestimmte persönliche Dateien oder URL-Parameter.

Um eine Überlastung Ihrer Website zu vermeiden

Schließlich kann diese Robots.txt-Datei verwendet werden, um eine Crawl-Verzögerung vorzugeben, damit Ihre Server nicht von den Crawlern der Suchmaschinen überlastet werden. Wenn die Crawler nämlich mehrere Inhalte Ihrer Website gleichzeitig untersuchen, kann dies zu einer Überlastung Ihrer Server führen, die nicht die Kapazität haben, so viele Inhalte gleichzeitig zu laden.

Wie erstellt man eine Robots.txt-Datei?

Die Robots.txt-Datei wird entweder manuell erstellt oder von den meisten CMS wie WordPress automatisch generiert und muss sich im Stammverzeichnis einer Website befinden. Sie können aber auch Online-Tools verwenden, um diese Datei zu erstellen.

Wenn Sie Ihre Robots.txt-Datei manuell erstellen möchten, können Sie einen beliebigen Texteditor verwenden und dabei bestimmte Regeln beachten:

  • Syntax und Anweisungen: User-agent, disallow und allow.
  • Aufrufen Ihrer Robots.txt-Datei.
  • Eine Struktur, die Sie übernehmen sollten: eine Anweisung pro Zeile, ohne eine leer zu lassen.

Achten Sie darauf, dass Ihre Robots.txt-Datei nicht größer als 512 KB ist.

Erstellen Ihrer Robots.txt-Datei mit Rank Math

Die Erstellung Ihrer Robots.txt-Datei ist sehr einfach. Gehen Sie dazu einfach auf die Registerkarte “Allgemeine Einstellungen” Ihres Plugins und klicken Sie dann auf “Robots.txt bearbeiten“. Sie können Ihre Datei dann direkt in das Plugin schreiben, das sie automatisch in Ihre Website integriert.

Wenn Sie vor der Installation des Rank Math-Plugins bereits eine Robots.txt-Datei zu Ihrer Website hinzugefügt hatten und diese nun über das Plugin verwalten möchten, müssen Sie die Datei von Ihrer Website löschen, bevor Sie sie in Rank Math bearbeiten können.

Erstellen Ihrer Robots.txt-Datei mit Yoast

Sie können Ihre Robots.txt-Datei auch mit dem Yoast-Plugin verwalten. Wie bei Rank Math ist die Funktionsweise recht einfach. Rufen Sie das Menü “Referenzierung” des Plugins auf. Klicken Sie dann auf “Tools” und dann auf “Datei bearbeiten“. Wenn Sie die Datei noch nicht zum Plugin hinzugefügt haben, müssen Sie sie nur erstellen, indem Sie auf die entsprechende Schaltfläche klicken. Nehmen Sie dann die gewünschten Änderungen vor und klicken Sie auf “Speichern“.

Welche Sprache sollte für eine Robots.txt-Datei verwendet werden?

Die Robots.txt-Datei verwendet eine spezielle Sprache, in der es einige reguläre Ausdrücke, Regex genannt, gibt, die das Schreiben der Robots.txt vereinfachen. Hier sind einige der üblichen Ausdrücke.

User-agent:

Mit diesem Befehl können Sie bestimmte Suchmaschinen verwenden. Die Robots.txt-Datei ist die erste Datei, die von den Suchmaschinen-Robotern überprüft wird. Sie überprüfen dann, ob sie in dieser Datei erwähnt werden. Wenn ihr Name dort steht, lesen sie die Befehle, die ihnen zugewiesen wurden.

Um eine Suchmaschine zu erwähnen, fügen Sie einfach ihren Namen nach dem User-agent-Befehl ein. Wenn Sie zum Beispiel Google erwähnen wollen, schreiben Sie “User-agent: Googlebot“. Wenn Sie alle an die Suchmaschinen gerichteten Befehle zentralisieren möchten, indem Sie sie alle auf einmal identifizieren, brauchen Sie nur den folgenden Befehl zu schreiben: “User-agent: * “.

Disallow: /

Dieser Befehl verhindert, dass Crawler bestimmte Teile Ihrer Website crawlen. Sie können jedoch nur einen Befehl pro Zeile hinzufügen, weshalb es in Robots.txt-Dateien mehrere Zeilen mit “disallow“-Befehlen hintereinander gibt.

Wenn Sie zum Beispiel “Disallow: */catalog/” nach Ihrem “User-agent: Googlebot” einfügen, verbieten Sie den Google-Robotern, alle Ihre Katalogseiten zu besuchen.

Allow: /

Dieser Befehl gilt nur für einen Google-Crawler namens Googlebot und ermöglicht ihm den Zugriff auf eine Seite oder einen Unterordner, auch wenn ihm der Zugriff auf die übergeordnete Seite verweigert wird.

Wenn Sie zum Beispiel den Befehl “Allow: /wp-admin/admin-ajax.php” nach dem Befehl “Disallow: /wp-admin/” einfügen, erlauben Sie dem Googlebot den Zugriff auf den Unterordner “admin-ajax.php”, aber nicht das Crawlen Ihrer “wp-admin“-Seite.

Crawl-Delay:

Mit dem Befehl Crawl-Delay können Sie die Crawler bitten, ein paar Sekunden zu warten, bevor sie Ihre Website crawlen. Wenn Sie zum Beispiel “Crawl-Delay: 20” eingeben, bitten Sie die Robots der betreffenden Suchmaschine(n), 20 Sekunden zu warten, bevor sie Ihre Website besuchen.

Sitemap:

Wie Sie sich vorstellen können, können Sie mit diesem Befehl den Crawlern Ihre Sitemap direkt anzeigen. Dazu fügen Sie einfach die URL Ihrer Sitemap nach dem Befehl “Sitemap:” ein.

Syntax von Robots.txt

Die Syntax von Robots.txt-Dateien weist einige Besonderheiten auf, die Sie unbedingt kennen sollten:

  • / : Damit können Sie die Dateien voneinander trennen. Wenn Sie ein “/” stehen lassen, ohne den Namen einer der Dateien auf Ihrer Website hinzuzufügen, bedeutet dies, dass der Befehl alle Ihre Seiten betrifft. Zum Beispiel bedeutet der Befehl “Disallow: /“, dass Sie den Zugriff auf Ihre gesamte Website für die entsprechenden Suchmaschinen-Spider blockieren.
  • * : Das Sternchen wird verwendet, um alle Elemente einer Website zu erfassen, die mit einem oder mehreren der dahinter angegebenen Kriterien in Zusammenhang stehen. Zum Beispiel verhindert der folgende Befehl “Disallow: *?filter=*“, dass Suchmaschinen auf alle URLs zugreifen, die “?filter=” enthalten.
  • # : Mit dem Hashtag können Sie Kommentare zu Ihrer Robots.txt-Datei hinzufügen. Damit können Sie den Lesern der Datei zusätzliche Informationen geben, ohne dass die Suchmaschinen sie für Anweisungen halten.
  • $ : Mit dem Dollar-Zeichen können Sie eine Anweisung für alle URLs geben, die ein bestimmtes Element enthalten, unabhängig davon, welcher Slug diesem Element in der URL vorausgeht. Zum Beispiel verbietet die Anweisung “Disallow: /solutions/$” den Suchmaschinen den Zugriff auf alle URLs, die das Element “/solutions/” enthalten, unabhängig von den nachfolgenden Slugs.

Einige Tipps zur Optimierung dieser Datei

Um Ihre Robots.txt-Datei zu optimieren, ist es wichtig, einige bewährte Verfahren anzuwenden:

  • Stellen Sie sicher, dass Sie die URLs Ihrer Website, die indiziert werden sollen, nicht blockieren.
  • Denken Sie daran, dass Links, die auf blockierten Seiten platziert sind, nicht verfolgt werden
  • Verwenden Sie nicht die Robots.txt-Datei, um die Anzeige sensibler Daten in der SERP zu blockieren. Diese Datei verhindert nämlich nicht systematisch die Indizierung von gesperrten URLs, da diese Seiten sehr wohl indiziert werden können, wenn andere Websites oder Seiten auf sie verweisen
  • Einige Suchmaschinen haben mehrere Crawler. Die Angabe von Anweisungen für jeden dieser Crawler ist nicht zwingend erforderlich, hilft aber, Ihre Inhaltsanalyse zu verfeinern

Um sicherzustellen, dass alle Ihre wichtigen URLs von Google indiziert werden können, können Sie Ihre Robots.txt-Datei testen. Melden Sie dazu einfach Ihre Website bei der Google Search Console an, klicken Sie dann im Menü auf Crawl und anschließend auf Robots.txt Testing Tool.

Grenzen der Robots.txt-Datei

Diese Robots.txt-Datei hat jedoch einige Einschränkungen in ihrem Nutzen. Diese Grenzen sind folgendermaßen:

  • Die Anweisungen in dieser Robots.txt-Datei sind nicht mit allen Suchmaschinen kompatibel: Diese Datei gibt zwar Anweisungen, aber es liegt in der Entscheidung des Crawlers, diese zu befolgen oder nicht. Aus diesem Grund ist es ratsam, andere Blockierungsmethoden zu verwenden, um bestimmte Daten auf Ihrer Website zu schützen. So können Sie zum Beispiel die privaten Dateien auf Ihrer Website mit einem Passwort schützen.
  • Nicht alle Crawler interpretieren die Syntax auf dieselbe Weise: Es ist daher eine Herausforderung, die richtige Syntax zu finden, damit alle Crawler Ihre Richtlinien verstehen.
  • Eine Seite, die in der Robots.txt-Datei verboten ist, kann dennoch indiziert werden, wenn andere Websites auf sie verweisen.

Steigern Sie Ihre Sichtbarkeit!

Zögern Sie nicht, uns zu kontaktieren, um ein kostenloses und individuelles Angebot zu erhalten.

Notez ce page