robots.txt

Mit der einfachen Textdatei robots.txt kann Suchmaschinen gezielt mitgeteilt werden, welche Seiten und Verzeichnisse indexiert bzw. nicht indexiert werden sollen.

Die Textdatei robots.txt (muss klein geschrieben werden) wird im Wurzelverzeichnis (Root) eines Webprojekts abgespeichert. Ob sie für eine bestimmte Domain existiert und welche Inhalte darin enthalten sind, kann einfach geprüft werden, indem im Browser www.eine-bestimmte-domain.ch/robots.txt eingegeben wird.

Fehlt sie, kommt eine 404-Fehlermeldung. Ist sie vorhanden, kann damit den Crawlern (auch Robots oder Bots genannt) von Suchmaschinen gezielt mitgeteilt werden, ob und welche Seiten und Verzeichnisse sie auslesen dürfen und welche nicht.

Zusätzlich kann man den Speicherort der Sitemap.xml angeben. In dieser kann man Suchmaschinen auf einfachste Art und Weise die komplette Seitenstruktur einer Website angeben, damit die Roboter alle gewünschten Seiten crawlen und indexieren.

Weniger technisch ausgedrückt enthält die Datei unmissverständliche Anweisungen für die Robots der Suchmaschinen, welche Inhalte sie in ihren Index aufnehmen dürfen bzw. sollen, und welche nicht. Werden gewisse Dateien, Dateitypen oder Seitenstrukturen z.B. für den Google-Bot ausgeschlossen bzw. blockiert, erscheinen sie in der Regel bei einer entsprechenden Suche in Google nicht. Eine ähnliche Möglichkeit bietet sich auch auf Seitenebene mittels HTML. Durch entsprechenden Meta-Tags kann die Indexierung erlaubt oder verhindert werden. Gerade bei grösseren Seiten ist dies jedoch umständlich und wenn man dies von Hand verwaltet, erfahrungsgemäss sehr fehleranfällig (nicht selten werden damit Seiten unabsichtlich von der Indexierung ausgeschlossen). Ein wesentlicher Vorteil der robots.txt Datei ist also, dass die Sperrung von Inhalten zentral in einer einzelnen Datei verwaltet werden kann.

Themen:
SEO, robots.txt