Die Datei robots.txt
Falls Sie Teile Ihrer Webseite NICHT von einem Suchmaschinencrawler (Programm zum durchsuchen und indexieren von Webseiten) durchsucht haben wollen, können Sie dies mit Hilfe einer robots.txt Datei verhindern. Die Datei robots.txt ist eine einfache Textdatei, welche Sie im Wurzelverzeichnis (Rootverzeichnis) Ihrer Webseite ablegen müssen. Der Dateiname muss klein geschrieben werden. Aufgrund des "Robots-Exclusion-Standards" wird ein Suchmaschinencrawler, bevor er Ihre Seite zu durchsuchen anfängt, zuerst Ihre robots.txt Datei lesen und dabei nachsehen, welche Dateien/Verzeichnisse er lesen und indexieren bzw. nicht lesen und nicht indexieren darf. Hierbei ist zu beachten, dass die robots.txt Datei nur hinweisenden Charaker für Suchmaschinencrawler hat, doch halten sich die meisten dieser Crawler an den Robots-Exclusion-Standard.
Der Aufbau der robots.txt Datei sieht folgendermassen aus:
User-Agent:
Disallow:
Mit User-Agent ist der Crawler gemeint, der sich an die nun folgenden Regeln halten soll. Da es verschiedene Crawlwer gibt, wird hier oftmals ein Asterisk (*) für ALLE Crawler eingetragen. Unter Disallow werden die nicht zu durchsuchenden Verzeichnisse und Seiten eingetragen. Es muss für jedes nicht zu durchsuchende Verzeichnis und für jede nicht zu durchsuchende Seite eine eigene Zeile geschrieben werden.
Hier sehen Sie ein Beispiel für eine robots.txt Datei von your-seo.de:
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /index.php/passwort-vergessen.html
Disallow: /index.php/lost-user-name.html
Disallow: /index.php/results/was-ist-der-wichtigste-google-rankingfaktor.html
Neben der Methode der robots.txt Datei gibt es auch noch die Möglichkeit Suchmaschinencrawler mittels Meta Tags auszusperren.
