Crawler

Crawler, auch "Searchbot" oder "Spider" genannt, wird für das durchforsten von verschiedenen Webseiten genutzt. Solche Crawler werden z.B. für die Indexierung der Suchmaschinen benutzt, dabei werden entweder die neuen Webseiten bei der Suchmaschine registriert oder aber der Crawler verfolgt die Links eigenständig und registriert sie.

Wie funktioniert ein Crawler?

Die Crawler gelangen über Hyperlinks von einer Webseite zur anderen. Die Adressen die dabei gefunden werden, werden der Reihe nach besucht und indexiert. Auf diese Weise werden alle erreichbaren Seiten im Internet gefunden.
Die Crawler werden meistens bei Suchmaschinen verwendet, welche den Prozess irgendwann beendet und von vorne beginnt. Je nach Crawler wird der Inhalt mittels Indexierung ausgewertet und gespeichert, um bei einer späteren Suchanfrage die gesammelten Daten aufzulisten.

Bei Google steuert der Scheduler den Crawler, indem er die im URL-Server abgespeicherten URLs in einem bestimmten Zeitabstand dem Crawler als Job weitergibt (Siehe auch: Besucher auf Homepage locken).

Google findet URLs über:

  • bereits bekannte URLs
  • Links
  • XML-Sitemaps
  • Adressen aus AJAX oder JavaScript
  • andere Quellen

In bestimmten Meta-Tags im HTML-Header kann eine Webseite einem Crawler mitteilen, welche Seiten indexiert werden sollen und welche nicht, es gibt aber einige Crawler die sich nicht daran halten. Die sogenannten Teergruben, welche den Crawlern falsche Informationen liefern und diese zusätzlich stark ausbremsen, werden zur Crawler Bekämpfung benutzt.

In unserem Internet-Marketing Glossar finden Sie Erläuterungen zu weiteren Begriffen und weiterführende Informationen dazu.

Artikel zu Crawler