Suchen

Robots Exclusion Protocol soll Internet-Standard werden Robots.txt-Parser als Open-Source-Projekt

| Autor / Redakteur: Thomas Joos / Stephan Augsten

Google will sein Robots Exclusion Protocol zum Internetstandard heraufstufen und hat dazu bei der IETF einen RFC, sprich Request for Comments eingereicht. Außerdem wird der robots.txt-Parser in Zukunft quelloffen bereitgestellt.

Firmen zum Thema

Google möchte das Robots Exclusion Protocol REP zum offiziellen Web-Standard machen.
Google möchte das Robots Exclusion Protocol REP zum offiziellen Web-Standard machen.
(Bild gemeinfrei: Rock'n Roll Monkey / Unsplash)

Hintergrund des Robots Exclusion Protocol (REP) ist die Idee, dass Regeln für Webcrawler in einer separaten Datei auf einem Webserver gespeichert werden. Das REP wird oft auch als Robots-Exclusion-Standard bezeichnet – vielen ist es unter dem Namen der verwendeten Datei „robots.txt“ bekannt.

Nun möchte Google das Robots Exclusion Protocol (REP) zum offiziellen Internetstandard machen. Um das zu erreichen, wurde der Code des robots.txt-Parsers auf Github quelloffen bereitgestellt. Bei der Internet Engineering Task Force (IETF) wurde gleichzeitig ein RFC eingereicht, inklusive einer Dokumentation des Umgangs mit robots.txt .

Auf Github stellt Google auch ein Tool zur Verfügung, mit der sich eigene Robots.txt-Dateien testen lassen. Der Parser und die dazu gehörige C++ Bibliothek wird unter der Apache-Lizenz veröffentlicht. Zwar wird REP seit über 20 Jahren bereits auf vielen Webseiten eingesetzt, ist aber noch kein offizieller Standard. Techriesen wie Microsoft und Yahoo haben zusammen die robots-txt zum Standard deklariert, allerdings handelt es sich dabei nicht um einen offiziellen Internetstandard.

Im Rahmen der Standardisierung soll REP auch für FTP und das IoT-Protokoll CoAP genutzt werden. Außerdem müssen mindestens 512 Kilobytes von robots.txt geparst werden.

(ID:46012413)

Über den Autor

 Thomas Joos

Thomas Joos

Freiberuflicher Autor und Journalist