Crawler
Um die Menge an Inhalten des World Wide Web erfassen zu können, benötigt man einen sogenannten Crawler – auch Bot oder Spider genannt – der das Internet durchsucht. Das Computerprogramm durchsucht automatisch das Internet nach Webseiten und nimmt diese, im Fall eines Suchmaschinenbots, in den Suchmaschinenindex auf beziehungsweise aktualisiert diese, wenn es Veränderungen gab. Crawler werden allerdings nicht ausschliesslich von Suchmaschinen eingesetzt, sondern unter anderem auch zum Sammeln von Email-Adressen oder zum Untersuchen des Internets. Das bedeutet, dass Crawler nicht zwangsweise nur auf das World Wide Web beschränkt sind.
Wie funktioniert ein Crawler?
Ein Webcrawler, der erste wurde 1993 auf „Wanderschaft“ geschickt (er hiess World Wide Web Wanderer), verfolgt das Prinzip des Surfens im Internet: er hangelt sich von Hyperlink zu Hyperlink und gelangt auf diese Weise (theoretisch) durch das gesamte Internet. Da aber viele Webseiten beispielsweise nur durch die Eingabe von Zugangsdaten zu erreichen sind, können Bots den Grossteil des Internets nicht erfassen. Bei einem Crawl (ein Vorgang) verfolgt der Crawler bestimmte Vorgaben, die vom Programmierer festgelegt werden. Diese Aufgaben nimmt der Crawler automatisch wahr und wiederholt sie fortlaufend. Das bedeutet, dass Internet wird stets von den Suchprogrammen durchforstet.
In den Vorgaben des Computerprogramms wird unter anderem festgehalten, in welchen Kategorien oder zu welchen Begriffen eine Webseite in den Index eingeordnet wird. Nach dem Crawlen werden die Inhalte dementsprechend in den Index gelistet und können auf diese Weise zu bestimmten Suchbegriffen abgerufen werden.
Crawler in der Suchmaschinenoptimierung
Für die Suchmaschinenoptimierung hat der Crawler eine wichtige Bedeutung, denn er sorgt dafür, dass Webseiten und Inhalte in Suchmaschinen auffindbar gemacht werden. Und da Suchmaschinen nach wie vor die wichtigste Trafficquelle für Webangebote sind, hat dies einen hohen Stellenwert. Zum einen muss man hierzu die Webseite für den Crawler zugänglich machen. Das bedeutet unter anderem, dass man den Bot nicht nur einen Hinweis in der robots.txt-Datei ausschliessen darf. Zum anderen ist die Wahrscheinlichkeit höher, dass der Crawler die Webseite häufiger (und das bedeutet vollständiger) indiziert, umso umfangreicher die Backlinkstruktur ist. Das liegt daran, dass der Bot sich über Hyperlinks zu neuen URLs hangelt. Werden Webseiten oder Teilbereiche nicht oder nur schlecht verlinkt, kann es sein, dass diese Inhalte nicht vom Bot erreicht werden.
Auch wenn es Ziel ist, möglichst gut in den Suchergebnissen gefunden zu werden, kann man bestimmte Bereiche einer Webseite von der Indexierung ausschliessen. Dies wird zum Beispiel dann notwendig, wenn es sich um unwichtige Unterseiten handelt – wie eine Anmeldeseite für die interne Nutzung des Webangebots.