Das Internet Archive respektiert die robots.txt nicht mehr

Mehr durch Zufall bemerke ich, daß die Wayback Machine des Internet Archive die .htaccess die robots.txt-Datei nicht mehr befolgt. Anscheinend handelt es sich dabei immer noch um ein probates Mittel, um Suchmaschinen von bestimmten Seiten einer Website fernzuhalten. Sie weisen die darin markierten Seiten bei Suchanfragen in der Regel weiterhin nicht nach. Aber dann findet man sie am Ende doch im Internet Archive wieder, zwar immer noch nicht recherchierbar, aber doch akkurat archiviert für alle Zukunft.

Das war schon mal anders. Kurios dabei: Auch früher nicht im Archiv auffindbare Seiten werden mittlerweile anstandslos nachgewiesen. Wayback, eben. Das Netz verliert nichts.

Die Arbeitsweise solcher Archive wird also mitunter auch nach Jahren und nachträglich noch geändert. Nachdem die meisten Diensteanbieter schon von der Wayback Machine nichts wissen, werden sie erst recht nicht auf die Idee kommen, daß ihre schon lange offline genommenen Daten doch noch irgendwo abrufbar sind, und zwar auch diejenigen, die bisher von der automatischen Archivierung ausgeschlossen waren. Hat der Crawler zugegriffen, ist im Zweifel immer von einem Vollarchiv auszugehen. Und der Graben zwischen Amerika und Europa, was den Respekt vor der Privatsphäre und den Datenschutz angeht, wird immer tiefer, je näher sie sich sind.

2 Kommentare zu „Das Internet Archive respektiert die robots.txt nicht mehr“

  1. Meinst Du wirklich die .htaccess-Datei, auf die der crawler gar keinen Zugriff hat, oder die robots.txt-Datei?

    1. facepalm Danke – Du hast natürlich Recht. Ich habe den Beitrag entsprechend geändert… Der Fehler bleibt in der URL bestehen, weil der Beitrag bereits extern verlinkt worden ist.

Die Kommentarfunktion ist geschlossen.