robots.txt, disallow all, allow all, noindex, SEO, Google Checker & Tester
Hier möchte ich ein paar Punkte zur robots.txt ansprechen und erklären. Denn die robots.txt ist dafür da, dass Sie den Robotern zeigt, wo sie hin dürfen und wo nicht.
robots.txt disallow all – Alle Roboter & Bots aussperren
Gib folgenden Code ein, wenn du nicht möchtest, dass die Roboter deine Webseite durchforsten.
User-agent: * # alle Roboter
Disallow: / # komplette Seite darf nicht durchforstet werden
robots.txt allow all – Alle Roboter & Crawler erlauben
Um allen Robotern das durchsuchen deiner Seite zu erlauben, musst du folgenden Code eingeben:
User-agent: * # alle Roboter
Disallow: # ohne Slash erlaubt man den Robotern alle Seiten zu durchsuchen
robots.txt noindex – Bestimmte Seiten dürfen nicht indexiert werden
Manchmal macht es Sinn, dass einige Seiten nicht indexiert werden sollen und dürfen, wie z. B. der Loginbereich. Dazu ist folgender Code notwendig:
User-agent: * # alle Roboter
Disallow: /login.php # /login.php darf nicht durchsucht werden
Disallow: /impressum.html # /impressum.html darf nicht durchsucht werden
Disallow: /extranet.php # /extranet.php darf nicht durchsucht werden
robots.txt – Bestimmte Dateien dürfen nicht indexiert werden
Manchmal ist es notwendig, dass bestimmte Dateien nicht durchsucht und indexiert werden dürfen. Somit schreibst du folgendes in deine robots.txt hinein:
User-agent: * # alle Roboter
Disallow: /meinlied.mp3 # /meinlied.mp3 darf nicht indexiert werden
Disallow: /steuer.pdf # steuer.pdf darf nicht indexiert werden
Disallow: /dokument.doc # dokument.doc darf nicht indexiert werden
robots.txt – Weitere Parameter
Bei der robots.txt können noch weitere Parameter hinzugefügt werden. Folgende Paramter gibt es noch:
$ # Zeilenende-Anker, gilt nur für googlebot, yahoo! Slurp und den msnbot
Beispiel:
Disallow: /*.jpg$ # Alle jpg-Dateien werden ignoriert
? # Urls mit einem “?” werden ebenfalls behandelt. Gilt nur für den Googlebot
Beispiel:
Disallow: /*? # Alle URLs die ein “?” beinhalten, werden ignoriert.
Crawl-delay: # Auslesegeschwindigkeit, gilt nur bei Yahoo Slurp und msnbot
Beispiel:
Crawl-delay: 10 # Alle 10 Sekunden darf eine Seite zum Auslesen aufgerufen werden
Für was ist die robots.txt gedacht?
Die robots.txt sagt den Robotern was sie indexieren dürfen und was nicht. So ist es möglich, den Linkjuice auf bestimmte Unterseiten zu verteilen.
Eine Loginseite oder Memberarea braucht keinen linkjuice und keinen Pagerank. Oder evtl. hat man bestimmte Unterseiten, Dateien oder subdomains, die noch nicht ganz fertig sind, sich ständig verändern oder von den Suchmaschinen einfach nicht indexiert werden sollen. Die robots.txt ist wichtig und sollte überall vorhanden sein.
Was gibt es beim Erstellen der robots.txt zu beachten?
Die richtige Schreibweise ist wichtig. Vertippst du dich, dann greift die Regel nicht.
Unwichtige Seiten sollten von der Indexierung ausgeschlossen sein (z. B. Login Bereich, interner Bereich) um den Linkjuice nicht unnötig zu verschwenden.
Liegt im Rootverzeichnis der Domain, bzw. Subdomain.
So, ich hoffe, ich konnte euch die robots.txt etwas näherbringen und ihr solltet nun in der Lage sein, eine eigene robots.txt nach euren Wünschen zu erstellen.
Keine Kommentare vorhanden