In Kürze: Robot
Ein Robot, auch bekannt als Bot, Spider oder Crawler, ist ein Programm, das von Suchmaschinen eingesetzt wird, um das Internet nach neuen Inhalten zu durchsuchen, diese zu erfassen, zu bewerten und zu indexieren. Etwa 40 Prozent des weltweiten Web-Traffics entfallen auf Robots.
Erklärung: Robot
Ein Robot ist ein automatisiertes Programm, das für Suchmaschinen das Internet nach neuen Inhalten durchsucht. Er erfasst, bewertet und indexiert Webseiten. Die Kurzform „Bot“ wird häufig verwendet, während alternative Bezeichnungen wie Spider oder Crawler ebenfalls gebräuchlich sind. Diese Programme sind entscheidend für die Funktionsweise von Suchmaschinen, da sie die Grundlage für die Einordnung von Suchergebnissen bilden.
Funktionsweise eines Robots
Der Robot durchsucht automatisiert Dokumente im Web und folgt dabei sowohl externen als auch internen Links. Dies ermöglicht es ihm, die Linkbeziehungen zwischen verschiedenen Webseiten zu erkennen. Bevor der Robot seine Aufgabe beginnt, benötigt er eine klar definierte Anweisung, um Informationen einer bestimmten Kategorie zuzuordnen. Durch wiederholte Durchläufe werden neue Informationen erfasst und indexiert. Es gibt jedoch auch Seiten, die für Robots nicht zugänglich sind, beispielsweise solche, die nur über einen Login oder eine Suchmaske erreichbar sind.
Einsatzmöglichkeiten für Robots
Robots werden in verschiedenen Bereichen eingesetzt, darunter:
- Data-Mining: Suche nach spezifischen Daten wie E-Mail-Adressen oder Telefonnummern.
- Webanalyse: Sammlung von Daten zu Seitenaufrufen und Seiteneinstiegen.
- Produktrecherche für Preisvergleiche: Erfassung von Produktdaten und Preisen für Vergleichsportale.
Robot lenken über die Robots.txt
Website-Betreiber können das Verhalten von Robots auf ihrer Seite mithilfe einer Datei namens „Robots.txt“ steuern. Diese Datei befindet sich im Root-Verzeichnis der Webseite und wird als erste von den Robots gelesen. Mit präzisen Anweisungen können Betreiber festlegen, welche Seiten der Robot durchsuchen darf und welche nicht. Dies ist besonders sinnvoll während eines Webseitenumbaus, um falsche Daten zu vermeiden.
Es ist wichtig zu beachten, dass Seiten, die in der Robots.txt gesperrt sind, dennoch von Suchmaschinen indexiert werden können. Um dies zu verhindern, sollten Meta-Tags wie der Noindex-Tag oder der Canonical-Tag verwendet werden.
Beispiel für eine Robots.txt
User-agent: * Disallow: /cgi-bin/ Disallow: /wp-admin/ Disallow: /trackback/ Disallow: /feed/ Disallow: /comments/ Disallow: /wp-content/uploads/ Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/
Sitemap: Zur offiziellen Website
« Back to Glossary Index