robots.txt

Gemäss geltenden Standards liest ein Suchmaschinen-Roboter beim Auffinden einer Webseite zuerst die Datei robots.txt im Stammverzeichnis (Root) einer Domain. In dieser Datei kann festgelegt werden, ob und wie die Webseite von einem Webcrawler besucht werden darf.

Nutzen von robots.txt

Dank robots.txt haben Website-Betreiber die Möglichkeit, ausgesuchte Bereiche ihres Internetauftrittes für alle oder ausgewählte Suchmaschinen zu sperren.

Eine durch robots.txt ausgeschlossene Seite kann von Suchmaschinen wie Google trotzdem im Index geführt werden. Dabei werden in der Regel aber nur Inhalte gezeigt, welche über Drittquellen öffentlich waren, da der Roboter die Seite selber nicht besuchen durfte. Es ist also keine gute Lösung, zum Beispiel Duplikate auf dem eigenen Auftritt einfach per robots.txt auszuschliessen. Die entsprechenden Links auf diese Seiten existieren immer noch - Google kann nur nicht überprüfen, was auf der Seite steht.

Es ist nicht zwingend, eine robots.txt einzusetzen. Die Roboter suchen zwar danach, haben aber kein Problem wenn diese nicht vorhanden ist. Eine nicht vorhandene robots.txt bedeutet, es gibt keine Einschränkungen für die Erfassung der Inhalte des Auftrittes. Ausnahmslos alle Inhalte dürfen erfasst werden.

Idealerweise wird der Auftritt so programmiert, dass die Roboter gar keine Seiten finden können, die nicht indexiert werden sollen. Eingesetzt werden kann robots.txt zum Beispiel für

  • Testverzeichnisse mit unfertigen Seiten
  • Bilder die nicht bei Google erscheinen sollen
  • Private Dateien
  • technische Bereiche
  • Aussperren von unerwünschten Robotern (sofern sich diese an robots.txt halten).

noindex

Eine mit robots.txt ausgeschlossene URL kann trotzdem im Google Index erscheinen, da sie Links erhält. Möchten wir sicherstellen, dass bestimmte URLs nicht im Index auftauchen, müssen wir den noindex-Metatag einsetzen, den Suchmaschinen aber den Zugriff auf diese URLs erlauben. So kann Google die Noindex-Anweisung erkennen und beachten.

Keine Lösung für Doppelte Inhalte!

Doppelte Inhalte mit robots.txt oder noindex auszuschliessen ist höchstens eine Notlösung da die Links auf diese URLs ja trotzdem da sind und zum Beispiel Pagerank verloren geht.

In unserem Internet-Marketing Glossar finden Sie Erläuterungen zu weiteren Begriffen und weiterführende Informationen dazu.

Artikel zu Robots-txt