Was ist robots.txt?
Mit diesem Artikel will ich die Methode vorstellen, mit der Besitzer von Homepages im World-Wide Web Anweisungen an Web Robots geben können, die deren Hompages besuchen. Im Großen und Ganzen ist es möglich, diese Robots in bestimmte Bereiche einzuladen oder davon fern zu halten. Was man dazu braucht ist eine Datei mit Namen robots.txt.
Was sind Web Robots?
Web Robots oder auch Spider genannt, sind webbasierende Programme, die meist in regelmäßigen Abständen Hypertext Dokumente und die dort verlinkten Dokumente indizieren. Meist werden diese Programme von Suchmaschinen verwendet, um Seiten zu indizieren und die eigenen Datenbanken zu aktualisieren.
In manchen Fällen kann es aber von Vorteil sein, wenn diese Robots bestimmte Bereiche einer Website nicht indizieren. Dies kann zum Beispiel eine noch nicht veröffentlichte Seite sein, oder Bereiche einer Website, die sich sowieso laufend ändern.
Um dies zu gewährleisten, legt man eine Datei an, in der dem Robots mitgeteilt wird, von welchen Bereichen sie sich fern halten sollen. Es hängt jedoch vom Robot ab, ob er diese Information verwendet und danach handelt.