Stadtplan gratis für Websites wird schnell teuer

Sie sind auf dem Weg einen kostenlosen Stadtplan im Internet zu finden - PRIMA !
Startseite
Aktionen
Abgemahnte
Abmahngebühren
Juristische Grundlagen
Forschung
Urheber
Presse
Linkliste
Kontakt
Impressum
 
Von Suchmaschinen erfasste Karten bzw. online-Inhalte entfernen
 

Wie man von Suchmaschinen erfasste und publizierte Inhalte wieder entfernt

[Dies ist die Fortsetzung von Wie konnte meine Karte gefunden werden? ]

Um zwei Dinge vorwegzunehmen: Erstens, es gibt keine praktikable Methode, um einmal von Suchmaschinen erfasste "unerwünschte" Inhalte kurzfristig wieder zu entfernen. Und zweitens: Es gibt eine spezielle Suchmaschine, die versucht, alle Versionen(!) jeder erreichbaren Website zu archivieren: www.archive.org [extern].

1. Inhalt aus normaler Suchmaschine entfernen

Obwohl viele (Bilder-)Suchmaschinen irgendwo - meist gut versteckt - eine Möglichkeit zum Entfernen erfasster Inhalte anbieten, hat dieser Vorgang so seine Tücken. Denn erstens dauert er meist einige Zeit und zweitens wird nicht selten vorausgesetzt, dass man vorher die nachfolgend beschriebene Variante nach dem sogenannten "Robot Exclusion Standard" umsetzt. Und vor allem: Es gibt viel zu viele Suchmaschinen, als dass ein normaler Mensch die alle kennen und beachten könnte.

Aber man kann "strategisch" dafür sorgen, dass einige oder alle Bilder der eigenen Website langfristig aus dem Index bzw. Cache der Suchmaschinen verschwinden. Das Zauberwort dafür heisst "The Robot Exclusion Standard" bzw. "The Robots Exclusion Protocol" und basiert auf einer einfachen Textdatei in der "Wurzel" (Root) einer Domain.

Dazu eine kurze Erklärung:
Als "Robots" (auch "Spider" oder "Crawler" genannt) bezeichnet man Programme, mit denen Suchmaschinenbetreiber das Web nach Brauchbarem absuchen. Und diese Programme sind angehalten, die Datei "/robots.txt" - falls vorhanden - zu lesen und gemäß dem oben genannten Standard zu beachten.
(Anm.: Daneben gibt es auch noch den Standard "The Robots META tag" - aber der wird seltener umgesetzt bzw. beachtet und ist außerdem weniger mächtig.)

Um es kurz zusammenzufassen: Man kann mittels dieser Datei Robots nur einschränken und muss dazu den Namen des Robots (oder ein Sternchen "*" für alle) sowie den Pfad zu einer Datei oder einem Verzeichnis angeben, für die/das der Zutritt gesperrt werden soll. Ein kurzes Beispiel folgt weiter unten, eine etwas umfassendere Beschreibung mit einem weiteren Beispiel im 3. Artikel dieser Serie: Die Erfassung von Inhalten durch Suchmaschinen verhindern . Am Ende des Artikels finden sich dann auch Links zu ausführlichen Informationen über die beiden Standards.

Fazit: Hat man den "unerwünschten" Inhalt per "robots.txt" ausgeschlossen und ggf. die Seite bei der fraglichen Suchmaschine neu angemeldet (damit deren Robot sie schneller besucht), dann sollte er über kurz oder lang sowohl aus dem Index als auch aus dem Cache der Suchmaschine verschwinden. Sicherheitshalber sollte man natürlich auch die (Bild-)Datei selbst auf dem eigenen Server löschen - falls der Inhalt z.B. so problematisch ist wie ein nicht lizenzierter Stadtplan ;-)

2. Internet-Archiv / Wayback Maschine / archive.org

Das Internet-Archiv bei www.archive.org [extern] - auch als "The Wayback Machine" bezeichnet - hat ebenfalls Robots im Einsatz, die ständig das Web absuchen - wenn auch nicht primär nach Bildern. Wie auch immer: "Theoretisch" sollte bei archive.org somit alles wie vorstehend beschrieben funktionieren.

Aber anders als normale Suchmaschinen speichert archive.org nicht nur die jeweils letzte Version einer Webseite, sondern alle Versionen, die den Robots des Archives jemals "zu Gesicht" kamen. Laut Selbstauskunft der Site (2. Frage in der FAQ) werden bei einem Verbot in robots.txt zwar auch alle "historischen" Versionen gelöscht - aber das scheint zumindest nicht in allen Fällen korrekt zu funktionieren.

Deshalb empfiehlt sich hier folgendes Vorgehen:

  1. Prüfen, ob die fragliche Seite überhaupt archiviert ist:
    Anders als "normale" Suchmaschinen, funktioniert die Suche bei archive.org nicht über Stichworte, sondern über URLs und Zeiten. Für unseren Zweck genügt es, einfach die URL der eigenen Site bzw. der kritischen Seite in das Suchfeld auf der Startseite einzugeben.
  2. Datei robots.txt anpassen bzw. erzeugen:
    Mal angenommen, wir haben einen nicht lizenzierten Stadtplan unter folgender hypothetischer URL: http://www.meineDomain.de/party/anfahrt.gif . Um archive.org ebenso wie allen anderen (standardkonformen) Robots nur dieses eine Bild zu verbieten, müßte die robots.txt (unter http://www.meineDomain.de/robots.txt) die folgenden beiden Zeilen enthalten:
    User-agent: *
    Disallow: /party/anfahrt.gif
  3. Die nun gesperrte Seite erneut anmelden:
    Entweder die URL der ganzen Site (also http://www.meineDomain.de/) und/oder die URL der (verbotenen) Karte in das Formular unter http://pages.alexa.com/help/webmasters/index.html#crawl_site [extern] eintragen.
  4. Warten und prüfen, ob die Inhalte wie gewünscht entfernt wurden:
    Ein paar Tage sollte man schon warten, bevor man wie unter 1. beschrieben erneut nachschaut...
  5. Falls Teile des Inhalts erhalten blieben, Löschung per Email verlangen:
    Bei Problemen bietet archive.org die Emailadresse wayback2@archive.org an. Sendet man darüber eine Email mit "Removal Request" im Betreff (Subjekt) und der zu löschenden URL im Mail-Text, so sollte die Bitte - bei vorhandener und korrekter robots.txt! - erhört und der zugehörige Inhalt auf archive.org gelöscht werden. Laut der FAQ auf archive.org sollte diese Emailadresse auch für weitergehende Fragen genutzt werden.
    Soweit die Theorie. In der Praxis kennt der Autor dieses Artikels Fälle, wo über Wochen alle Mails an die genannte Adresse als unzustellbar zurück kamen und die URL natürlich nicht gelöscht wurde. Der Kreislauf aus Auswertung von Mail-Headern und neuen Versuchen brachte schließlich unter der Domain archive.org eine Emailadresse astrid@... und damit den Office Manager der Wayback-Machine, Astrid Bragg, zum Vorschein - wodurch dann sowohl die gewünschte URL gelöscht als auch die offizielle Emailadresse wieder repariert wurde.
    (Dies ist der Stand von April 2004. Sollten sich diesbezüglich Änderungen ergeben, bitte eine Email an cnaturs @ abmahnwelle . de senden.)

Fortsetzung: Die Erfassung von Inhalten durch Suchmaschinen verhindern
« zurück

 [cn]
 21.05.2004 13:42